選好最適化
要約済み 1
-
hf-papers 23時間前 3モバイルAIエージェントにプライバシー嗜好を学習させる新手法Mobile GUI Agent Privacy Personalization with Trajectory Induced Preference Optimization
MLLMベースのモバイルGUIエージェントがユーザーのプライバシー嗜好に沿って行動する手法「TIPO」が発表された。 プライバシー優先・利便性優先の異なるペルソナを軌跡から学習し、タスク成功率65.60%を達成。 スマートフォン操作AIの個人化・プライバシー配慮設計に新たな指針を示す成果として注目される。
解説 本論文は、スマートフォン操作を自動化するモバイルGUIエージェントにプライバシー個人化を組み込む研究である。同一タスクでもユーザーのプライバシー嗜好(プライバシー優先 vs 利便性優先)により実行軌跡が構造的・長さ的に異なるという問題に着目し、新手法「TIPO(Trajectory Induced Preference Optimization)」を提案する。 TIPOの核心は2つの機構にある。①**選好強度重み付け**:権限拒否やトラッキング無効化など、ペルソナ識別に重要なステップに高い重みを割り当て、プライバシー関連の学習信号を強調する。②**パディングゲーティング**:長さ揃えのために挿入されたno_actionプレースホルダーへの勾配を遮断し、無意味なアライメントノイズを排除する。これらにより既存のDPO(Direct Preference Optimization:報酬モデル不要の選好学習手法)が抱える均一重み付けの問題を克服する。 実験にはショッピング・支払い・閲覧等8カテゴリ151タスク・302軌跡からなる独自データセットを構築。Qwen2.5VL-3Bをバックボーンに、DPO・ORPO・SimPO・CPO・IPOと比較した結果、TIPOは総合タスク成功率65.60%、ペルソナ遵守スコア(Compliance)46.22、ペルソナ識別率(PD)66.67%で全指標において最良または最良水準を達成。GPT-4oやClaudeとの直接比較はないが、同条件下で既存選好最適化手法を全面的に上回る。プライバシー以外のユーザー嗜好(効率・コスト感度等)への拡張も示唆されており、パーソナライズされた実用AIエージェント開発に有意義な貢献をしている。