モバイルエージェント
要約済み 2
-
hf-papers 23時間前 3モバイルAIエージェントにプライバシー嗜好を学習させる新手法Mobile GUI Agent Privacy Personalization with Trajectory Induced Preference Optimization
MLLMベースのモバイルGUIエージェントがユーザーのプライバシー嗜好に沿って行動する手法「TIPO」が発表された。 プライバシー優先・利便性優先の異なるペルソナを軌跡から学習し、タスク成功率65.60%を達成。 スマートフォン操作AIの個人化・プライバシー配慮設計に新たな指針を示す成果として注目される。
解説 本論文は、スマートフォン操作を自動化するモバイルGUIエージェントにプライバシー個人化を組み込む研究である。同一タスクでもユーザーのプライバシー嗜好(プライバシー優先 vs 利便性優先)により実行軌跡が構造的・長さ的に異なるという問題に着目し、新手法「TIPO(Trajectory Induced Preference Optimization)」を提案する。 TIPOの核心は2つの機構にある。①**選好強度重み付け**:権限拒否やトラッキング無効化など、ペルソナ識別に重要なステップに高い重みを割り当て、プライバシー関連の学習信号を強調する。②**パディングゲーティング**:長さ揃えのために挿入されたno_actionプレースホルダーへの勾配を遮断し、無意味なアライメントノイズを排除する。これらにより既存のDPO(Direct Preference Optimization:報酬モデル不要の選好学習手法)が抱える均一重み付けの問題を克服する。 実験にはショッピング・支払い・閲覧等8カテゴリ151タスク・302軌跡からなる独自データセットを構築。Qwen2.5VL-3Bをバックボーンに、DPO・ORPO・SimPO・CPO・IPOと比較した結果、TIPOは総合タスク成功率65.60%、ペルソナ遵守スコア(Compliance)46.22、ペルソナ識別率(PD)66.67%で全指標において最良または最良水準を達成。GPT-4oやClaudeとの直接比較はないが、同条件下で既存選好最適化手法を全面的に上回る。プライバシー以外のユーザー嗜好(効率・コスト感度等)への拡張も示唆されており、パーソナライズされた実用AIエージェント開発に有意義な貢献をしている。 -
arxiv-cs-ai 1日前 3実世界対応のモバイルエージェント評価基盤「MobiFlow」登場MobiFlow: Real-World Mobile Agent Benchmarking through Trajectory Fusion
研究チームが任意のAndroidアプリに対応するエージェント評価フレームワーク「MobiFlow」を発表。 マルチ軌跡融合技術で状態空間を圧縮し、動的なUI操作を精度高く評価できる仕組みを実現。 既存手法の実世界乖離問題を解消し、モバイルエージェント研究の標準基盤となる可能性。
解説 モバイルエージェントとはスマートフォンのGUI操作を自律的に行うAIシステムで、ユーザーが指示したタスクを自動実行する。既存の代表的ベンチマークであるAndroidWorldはAndroidエミュレータのシステムレベルAPIを介してタスク成否を判定するが、実際の多くのサードパーティアプリはこうしたAPIを公開していないため、ベンチマークと実世界の乖離が生じていた。MobiFlowはこの問題を解決するため、任意のサードパーティアプリ上のタスクを評価対象とする新フレームワークを提案する。核心技術は「マルチ軌跡融合(Multi-Trajectory Fusion)」に基づくグラフ構築アルゴリズムで、複数の操作軌跡を統合して状態空間を効率的に圧縮し、同一目標への複数の到達経路を許容しながら動的なインタラクションにも対応する。これにより、APIが存在しないアプリでも画面状態の変化からタスク成否を評価できる。論文では20種類以上のアプリをカバーし、GPT-4oやClaude、Geminiなど主要LLMエージェントの性能を比較評価している。実用面では、企業が内製アプリや市販アプリ上でのエージェント性能をより正確に測定できるようになり、モバイルオートメーションの実用化を加速する意義がある。