テスト時適応
要約済み 2
-
hf-papers 3日前 43D再構成モデル、テスト時自己進化で精度3.7%向上Free Geometry: Refining 3D Reconstruction from Longer Versions of Itself
研究チームがフィードフォワード型3D再構成モデルをテスト時に自己適応させる新フレームワーク「Free Geometry」を発表。 フレームの部分マスクと特徴一致強制によるLoRA高速再調整で、Depth Anything 3・VGGTなどSOTAモデルのカメラ姿勢精度を+3.73%改善。 追加学習データ不要でテスト時に性能向上できる手法として、3D認識・自律ロボットなどへの応用が期待される。
解説 フィードフォワード型3D再構成モデルは高速だが、一度学習するとゼロショット推論しかできず、オクルージョン(遮蔽)・鏡面反射・曖昧な手がかりに対して誤差を生じやすい。本論文のFree Geometryは「視点数が多いほど再構成品質が向上する」という性質を利用し、3Dグラウンドトゥルース不要でテスト時に自己改良を行う枠組みである。具体的には、テスト用入力シーケンスの一部フレームをランダムにマスクして疑似タスクを構築し、全フレームと部分フレームから得られる特徴表現間でクロスビュー一致性損失を課す。同時にマスクされたフレームが暗示するペアワイズ幾何関係も保持することで、一貫した3D表現へ誘導する。この自己教師あり信号で軽量なLoRAパラメータのみを更新するため、1GPU・1データセットあたり2分未満で再調整が完了する。Depth Anything 3やVGGT(マルチビュー画像から3D点群・カメラ姿勢を同時推定する基盤モデル)を含む最新モデルに適用し、4ベンチマーク平均でカメラ姿勢精度3.73%・点群マップ予測2.88%の改善を達成した。既存の基盤モデルにプラグイン的に適用できる汎用性が実用上の大きな強みである。 -
hf-papers 3日前 3追加学習不要でGUI操作AIの精度を13%超改善する手法登場UI-Zoomer: Uncertainty-Driven Adaptive Zoom-In for GUI Grounding
研究チームがGUIスクリーンショット上のUI要素定位を改善する「UI-Zoomer」を発表。 不確実性が高い箇所のみ適応的にズームインし、小アイコンや密集レイアウトにも対応。 追加学習なしでScreenSpot-Proなどのベンチマークで最大13.4%の精度向上を達成した。
解説 UI-Zoomerは、GUIスクリーンショットから自然言語クエリに対応するUI要素を特定するGUIグラウンディングタスクにおいて、既存手法の課題を解決する訓練不要の適応型ズームイン手法である。 既存のテスト時ズームイン手法は、全インスタンスに対して固定サイズのクロップを均一適用するため、モデルが実際に苦手とするケースかどうかを区別せず、過剰または不適切なスケールのズームインが発生していた。 UI-Zoomerは二つの主要コンポーネントで構成される。①Confidence-Aware Gate(信頼度認識ゲート)は、確率的サンプリングで生成した複数の予測候補間の空間的一致度(Spatial Consensus)とトークンレベルの生成確信度を統合し、定位が不確実な場合にのみズームインをトリガーする。②Uncertainty-Driven Crop Sizingモジュールは、予測分散をサンプル間の位置ばらつき(inter-sample)とサンプル内のボックス範囲(intra-sample)に分解し、全分散の法則を用いてインスタンスごとに最適なクロップ半径を算出する。 ScreenSpot-Pro・UI-Vision・ScreenSpot-v2の3ベンチマークで複数モデルアーキテクチャに対して一貫した改善を達成し、それぞれ最大+13.4%・+10.3%・+4.2%の向上を記録。追加学習不要なプラグアンドプレイ設計のため、既存VLMベースGUIエージェントへの組み込みが容易であり、小アイコン・密集UIへの対応において実用的価値が高い。