Visual Grounding
要約済み 1
-
hf-papers 2日前 4UI-Zoomer、GUI要素検出で最大13%精度向上UI-Zoomer: Uncertainty-Driven Adaptive Zoom-In for GUI Grounding
研究チームがGUIスクリーンショット上の小アイコン・密集レイアウト向け適応ズーム技術「UI-Zoomer」を発表。 予測不確実性を定量化し必要時のみズームインする手法で、追加学習不要でScreenSpot-Proのスコアを最大+13.4%改善。 AIエージェントのPC・スマホ操作精度向上に直結し、自律エージェント開発者にとって即活用可能な成果。
解説 UI-ZoomerはGUI要素のグラウンディング(自然言語クエリからスクリーンショット上の対象要素を特定するタスク)において、従来の固定クロップサイズによるズームイン手法の限界を克服するフレームワークである。 核心は「不確実性がある場合のみズームインする」という選択的トリガー機構にある。具体的には、確信度アウェアゲートが複数の確率的候補間の空間的合意とトークンレベルの生成確信度を融合し、定位が不確かな場合のみズームを発動する。さらに、ズームする際のクロップサイズも固定ではなく、全分散の法則を用いてサンプル間の位置ばらつき(inter-sample)とサンプル内のボックスサイズ(intra-sample)から動的に導出する。 実験はScreenSpot-Pro(高解像度・複雑UI)、UI-Vision、ScreenSpot-v2の3ベンチマークで実施。GPT-4oやGeminiを含む既存の強力なベースラインに対し、追加学習ゼロで一貫した改善を達成(最大+13.4%、+10.3%、+4.2%)。複数のモデルアーキテクチャで汎用的に動作する点が実用上大きな強みであり、既存のVLMやGUIエージェントへのプラグイン的適用が可能。