Long-horizon Task

1件の記事

要約済み 1

hf-papers 2日前 4
新フレームワーク「UIコパイロット」、GUI自動化で大幅精度向上
UI-Copilot: Advancing Long-Horizon GUI Automation via Tool-Integrated Policy Optimization

研究チームが長期GUI操作タスクの精度を大幅に改善する協調型AIフレームワーク「UI-Copilot」を発表。 GUIエージェントと検索・計算ツールを持つ軽量コパイロットが連携し、メモリ劣化や数値幻覚を解消。 AndroidWorldベンチマークで17.1%の絶対改善を達成し、自律エージェント実用化に向け前進。

解説 UI-CopilotはMLLMベースのGUIエージェントが長期タスクで抱える3つの課題——メモリ劣化（過去の観察が忘れられる）、進捗混乱（タスクの現在地を見失う）、数値幻覚（計算ミス）——を解消する協調フレームワークである。主エージェントはタスク実行に専念し、軽量コパイロットが「Retriever（過去観察を検索）」または「Calculator（数値計算を実行）」として必要時のみ呼び出される設計となっている。メモリ分離（Memory Decoupling）により、持続的な観察記録と一時的な実行コンテキストを分離しコンテキストウィンドウの圧迫を防ぐ。学習にはTIPO（Tool-Integrated Policy Optimization）を導入し、ツール選択を単一ターン予測で、タスク実行をオンポリシーの多ターンロールアウトで別々に最適化することで効果的なツール活用を学習する。実験ではUI-Copilot-7BがMemGUI-BenchでGUI-Owl-7BやUI-TARS-1.5-7Bを上回る最高性能を達成し、実世界環境のAndroidWorldではベースモデル（Qwen）比17.1%の絶対改善を示した。GPT-4oやGeminiなどの大型モデルに対しても競争力があり、7Bスケールで実用的な長期GUI自動化を実現した点が意義深い。

GUI Agent Long-horizon Task Tool-Augmented RL MLLM