ツール統合強化学習
要約済み 1
-
hf-papers 3日前 4GUIエージェントの長時間自動化、新手法で精度17%向上UI-Copilot: Advancing Long-Horizon GUI Automation via Tool-Integrated Policy Optimization
研究チームが長時間GUI自動化の課題を解決するフレームワーク「UI-Copilot」を発表した。 記憶劣化・進捗混乱・数値幻覚をコパイロットツールの選択的呼び出し(TIPO)で克服し、AndroidWorldで基盤モデル比17.1%の絶対改善を達成。 スマートフォン操作や業務自動化など、複雑な長時間タスクを扱うGUIエージェントの実用化を大きく前進させる。
解説 UI-Copilotは、MLLMベースのGUIエージェントが長時間の自動化タスクで直面する3つの根本課題(記憶劣化・進捗混乱・数値幻覚)に対処するための協調フレームワークである。 提案手法の核心は「役割分担」にある。メインのGUIエージェントはタスク実行に集中し、軽量なコパイロットは必要に応じてRetriever(過去の観測を検索する情報取得ツール)またはCalculator(数値計算ツール)として呼び出される。これにより、エージェントが本来苦手とする長期記憶や算術処理をツール側に委譲できる。 メモリデカップリングと呼ばれる設計では、永続的な観測情報(タスク履歴など)と一時的な実行コンテキストを分離することで、コンテキスト汚染を防ぐ。 ツール呼び出し学習には独自のTIPO(Tool-Integrated Policy Optimization)を採用。ツール選択はシングルターン予測で最適化し、タスク実行はオンポリシーのマルチターンロールアウトで訓練する。この分離が効果的なツール統合学習を可能にする。 実験結果では、7Bパラメータモデル(UI-Copilot-7B)がMemGUI-Benchで同スケールの競合モデル(GUI-Owl-7B、UI-TARS-1.5-7B)を上回るSOTAを達成。また実世界のAndroidWorldベンチマークでもベースモデル(Qwen)比17.1%の絶対改善を示し、汎化性能の高さを証明した。