選好最適化

1件の記事

要約済み 1

hf-papers 23時間前 3
モバイルAIエージェントにプライバシー嗜好を学習させる新手法
Mobile GUI Agent Privacy Personalization with Trajectory Induced Preference Optimization

MLLMベースのモバイルGUIエージェントがユーザーのプライバシー嗜好に沿って行動する手法「TIPO」が発表された。プライバシー優先・利便性優先の異なるペルソナを軌跡から学習し、タスク成功率65.60%を達成。スマートフォン操作AIの個人化・プライバシー配慮設計に新たな指針を示す成果として注目される。

解説本論文は、スマートフォン操作を自動化するモバイルGUIエージェントにプライバシー個人化を組み込む研究である。同一タスクでもユーザーのプライバシー嗜好（プライバシー優先 vs 利便性優先）により実行軌跡が構造的・長さ的に異なるという問題に着目し、新手法「TIPO（Trajectory Induced Preference Optimization）」を提案する。 TIPOの核心は2つの機構にある。①**選好強度重み付け**：権限拒否やトラッキング無効化など、ペルソナ識別に重要なステップに高い重みを割り当て、プライバシー関連の学習信号を強調する。②**パディングゲーティング**：長さ揃えのために挿入されたno_actionプレースホルダーへの勾配を遮断し、無意味なアライメントノイズを排除する。これらにより既存のDPO（Direct Preference Optimization：報酬モデル不要の選好学習手法）が抱える均一重み付けの問題を克服する。実験にはショッピング・支払い・閲覧等8カテゴリ151タスク・302軌跡からなる独自データセットを構築。Qwen2.5VL-3Bをバックボーンに、DPO・ORPO・SimPO・CPO・IPOと比較した結果、TIPOは総合タスク成功率65.60%、ペルソナ遵守スコア（Compliance）46.22、ペルソナ識別率（PD）66.67%で全指標において最良または最良水準を達成。GPT-4oやClaudeとの直接比較はないが、同条件下で既存選好最適化手法を全面的に上回る。プライバシー以外のユーザー嗜好（効率・コスト感度等）への拡張も示唆されており、パーソナライズされた実用AIエージェント開発に有意義な貢献をしている。

モバイルエージェントプライバシー選好最適化