モバイルGUI
要約済み 1
-
hf-papers 2日前 4モバイルAI操作の「人間らしさ」を測る新ベンチマーク登場Turing Test on Screen: A Benchmark for Mobile GUI Agent Humanization
研究チームがモバイルGUIエージェントの人間化度を評価する新ベンチマーク「AHB」を発表した。 人間・エージェントのタッチ動作データを収集し、検出器とエージェントのMinMax最適化で定式化。 4つの人間化手法で検出精度を大幅低下させ、AIエージェント偽装対策の有効性を実証した。
解説 本論文は、モバイル画面上で動作するGUIエージェントが行動検出を回避できるかを定量評価する新ベンチマーク「AHB(Agent Humanization Benchmark)」を提案する。検出器がエージェントを識別しようとする一方、エージェントはタスク成功率を維持しつつ検出を回避するという敵対的なMinMax最適化ゲームとして定式化した。4つの人口層の人間ユーザと、UI-TARS・GPT-4oおよびClaude-3.5-SonnetベースのMobileAgent-E・AgentCPM・AutoGLMの計5種エージェントのタッチ動作データを収集。実験では未処理エージェントはXGBoost・SVM双方で検出精度ほぼ1.0と完全に識別可能だった。提案する4手法のうち、実際の人間軌跡を変換して再利用する「履歴マッチング」が最も効果的で検出精度を大幅に低下させた。推論待ち時間を隠す「偽アクション挿入」はインターバル検出をほぼランダムレベル(精度0.52)に抑えた一方、Tripプランニングではタスク精度が0.75から0.15に低下するトレードオフも確認された。ByteDanceのDubaoアシスタントがWeChatや銀行アプリにブロックされた実事例も示し、GUI人間化研究の実社会的緊急性を訴えている。