要素定位
要約済み 1
-
hf-papers 3日前 3追加学習不要でGUI操作AIの精度を13%超改善する手法登場UI-Zoomer: Uncertainty-Driven Adaptive Zoom-In for GUI Grounding
研究チームがGUIスクリーンショット上のUI要素定位を改善する「UI-Zoomer」を発表。 不確実性が高い箇所のみ適応的にズームインし、小アイコンや密集レイアウトにも対応。 追加学習なしでScreenSpot-Proなどのベンチマークで最大13.4%の精度向上を達成した。
解説 UI-Zoomerは、GUIスクリーンショットから自然言語クエリに対応するUI要素を特定するGUIグラウンディングタスクにおいて、既存手法の課題を解決する訓練不要の適応型ズームイン手法である。 既存のテスト時ズームイン手法は、全インスタンスに対して固定サイズのクロップを均一適用するため、モデルが実際に苦手とするケースかどうかを区別せず、過剰または不適切なスケールのズームインが発生していた。 UI-Zoomerは二つの主要コンポーネントで構成される。①Confidence-Aware Gate(信頼度認識ゲート)は、確率的サンプリングで生成した複数の予測候補間の空間的一致度(Spatial Consensus)とトークンレベルの生成確信度を統合し、定位が不確実な場合にのみズームインをトリガーする。②Uncertainty-Driven Crop Sizingモジュールは、予測分散をサンプル間の位置ばらつき(inter-sample)とサンプル内のボックス範囲(intra-sample)に分解し、全分散の法則を用いてインスタンスごとに最適なクロップ半径を算出する。 ScreenSpot-Pro・UI-Vision・ScreenSpot-v2の3ベンチマークで複数モデルアーキテクチャに対して一貫した改善を達成し、それぞれ最大+13.4%・+10.3%・+4.2%の向上を記録。追加学習不要なプラグアンドプレイ設計のため、既存VLMベースGUIエージェントへの組み込みが容易であり、小アイコン・密集UIへの対応において実用的価値が高い。