Visual Grounding

1件の記事

要約済み 1

hf-papers 2日前 4
UI-Zoomer、GUI要素検出で最大13%精度向上
UI-Zoomer: Uncertainty-Driven Adaptive Zoom-In for GUI Grounding

研究チームがGUIスクリーンショット上の小アイコン・密集レイアウト向け適応ズーム技術「UI-Zoomer」を発表。予測不確実性を定量化し必要時のみズームインする手法で、追加学習不要でScreenSpot-Proのスコアを最大+13.4%改善。 AIエージェントのPC・スマホ操作精度向上に直結し、自律エージェント開発者にとって即活用可能な成果。

解説 UI-ZoomerはGUI要素のグラウンディング（自然言語クエリからスクリーンショット上の対象要素を特定するタスク）において、従来の固定クロップサイズによるズームイン手法の限界を克服するフレームワークである。核心は「不確実性がある場合のみズームインする」という選択的トリガー機構にある。具体的には、確信度アウェアゲートが複数の確率的候補間の空間的合意とトークンレベルの生成確信度を融合し、定位が不確かな場合のみズームを発動する。さらに、ズームする際のクロップサイズも固定ではなく、全分散の法則を用いてサンプル間の位置ばらつき（inter-sample）とサンプル内のボックスサイズ（intra-sample）から動的に導出する。実験はScreenSpot-Pro（高解像度・複雑UI）、UI-Vision、ScreenSpot-v2の3ベンチマークで実施。GPT-4oやGeminiを含む既存の強力なベースラインに対し、追加学習ゼロで一貫した改善を達成（最大+13.4%、+10.3%、+4.2%）。複数のモデルアーキテクチャで汎用的に動作する点が実用上大きな強みであり、既存のVLMやGUIエージェントへのプラグイン的適用が可能。

GUI Agent Visual Grounding Test-time Scaling