実世界対応のモバイルエージェント評価基盤「MobiFlow」登場

arxiv-cs-ai 2026-04-14 04:00 ★3

実世界対応のモバイルエージェント評価基盤「MobiFlow」登場

MobiFlow: Real-World Mobile Agent Benchmarking through Trajectory Fusion

モバイルエージェントベンチマーク GUI自動化評価フレームワーク

要約

研究チームが任意のAndroidアプリに対応するエージェント評価フレームワーク「MobiFlow」を発表。マルチ軌跡融合技術で状態空間を圧縮し、動的なUI操作を精度高く評価できる仕組みを実現。既存手法の実世界乖離問題を解消し、モバイルエージェント研究の標準基盤となる可能性。

解説・分析

モバイルエージェントとはスマートフォンのGUI操作を自律的に行うAIシステムで、ユーザーが指示したタスクを自動実行する。既存の代表的ベンチマークであるAndroidWorldはAndroidエミュレータのシステムレベルAPIを介してタスク成否を判定するが、実際の多くのサードパーティアプリはこうしたAPIを公開していないため、ベンチマークと実世界の乖離が生じていた。MobiFlowはこの問題を解決するため、任意のサードパーティアプリ上のタスクを評価対象とする新フレームワークを提案する。核心技術は「マルチ軌跡融合（Multi-Trajectory Fusion）」に基づくグラフ構築アルゴリズムで、複数の操作軌跡を統合して状態空間を効率的に圧縮し、同一目標への複数の到達経路を許容しながら動的なインタラクションにも対応する。これにより、APIが存在しないアプリでも画面状態の変化からタスク成否を評価できる。論文では20種類以上のアプリをカバーし、GPT-4oやClaude、Geminiなど主要LLMエージェントの性能を比較評価している。実用面では、企業が内製アプリや市販アプリ上でのエージェント性能をより正確に測定できるようになり、モバイルオートメーションの実用化を加速する意義がある。

AIフロントライン

実世界対応のモバイルエージェント評価基盤「MobiFlow」登場

要約

解説・分析

関連する読者