ツール統合強化学習

1件の記事

要約済み 1

hf-papers 3日前 4
GUIエージェントの長時間自動化、新手法で精度17%向上
UI-Copilot: Advancing Long-Horizon GUI Automation via Tool-Integrated Policy Optimization

研究チームが長時間GUI自動化の課題を解決するフレームワーク「UI-Copilot」を発表した。記憶劣化・進捗混乱・数値幻覚をコパイロットツールの選択的呼び出し（TIPO）で克服し、AndroidWorldで基盤モデル比17.1%の絶対改善を達成。スマートフォン操作や業務自動化など、複雑な長時間タスクを扱うGUIエージェントの実用化を大きく前進させる。

解説 UI-Copilotは、MLLMベースのGUIエージェントが長時間の自動化タスクで直面する3つの根本課題（記憶劣化・進捗混乱・数値幻覚）に対処するための協調フレームワークである。提案手法の核心は「役割分担」にある。メインのGUIエージェントはタスク実行に集中し、軽量なコパイロットは必要に応じてRetriever（過去の観測を検索する情報取得ツール）またはCalculator（数値計算ツール）として呼び出される。これにより、エージェントが本来苦手とする長期記憶や算術処理をツール側に委譲できる。メモリデカップリングと呼ばれる設計では、永続的な観測情報（タスク履歴など）と一時的な実行コンテキストを分離することで、コンテキスト汚染を防ぐ。ツール呼び出し学習には独自のTIPO（Tool-Integrated Policy Optimization）を採用。ツール選択はシングルターン予測で最適化し、タスク実行はオンポリシーのマルチターンロールアウトで訓練する。この分離が効果的なツール統合学習を可能にする。実験結果では、7Bパラメータモデル（UI-Copilot-7B）がMemGUI-Benchで同スケールの競合モデル（GUI-Owl-7B、UI-TARS-1.5-7B）を上回るSOTAを達成。また実世界のAndroidWorldベンチマークでもベースモデル（Qwen）比17.1%の絶対改善を示し、汎化性能の高さを証明した。

GUI自動化ツール統合強化学習長時間タスクエージェント協調