Benchmark
要約済み 1
-
hf-blog 1年前 3専門UI操作でGPT-4oが0.8%——新BM公開✴️ ScreenSpot-Pro: GUI Grounding for Professional High-Resolution Computer Use
高解像度プロ向けGUIでのAI操作能力を評価するベンチマーク「ScreenSpot-Pro」が公開された CAD・IDEなど23種の専門アプリで1581タスクを収録し、人間の専門家が注釈付け GPT-4oのスコアはわずか0.8%と壊滅的で、現行モデルの実務UI対応の限界を浮き彫りにした
解説 ScreenSpot-Proは、プロフェッショナル向け高解像度環境(最大3840×2160)でのGUIグラウンディング(自然言語指示からUI要素の画面座標を特定するタスク)を評価する新ベンチマーク。VSCode・Photoshop・AutoCAD・MATLABなど5分野23種の専門アプリをWindows・macOS・Linux横断で対象とし、実務経験5年以上の専門家が注釈した1,581タスクを収録する。評価結果では既存モデルの壊滅的な性能が判明。GPT-4oはわずか0.8%、専門特化型のOS-Atlas-7Bでも18.9%に留まる。画像クロッピングで解像度問題を緩和するReGroundを適用すると40.2%まで改善されるが依然低い。一般的なWebやモバイルUI向けモデルが、密集した小型UI要素を持つ専門ソフトウェアに通用しないことを定量的に示し、高解像度対応・ドメイン特化型GUIエージェントの開発必要性を提起する。