GUI自動化
要約済み 2
-
hf-papers 1日前 4新ベンチマークCocoaBench、最強エージェントでも成功率45%止まりCocoaBench: Evaluating Unified Digital Agents in the Wild
視覚・検索・コーディングを複合的に要求する153タスクのベンチマーク「CocoaBench」が公開された。 最高性能のGPT-5.4+Codexでも成功率45.1%、オープンソースのKimi-k2.5は11.8%にとどまった。 現行AIエージェントの実力差と課題を可視化し、今後の開発指針として注目される。
解説 CocoaBenchは、LLMエージェントを単一能力ではなく「統合デジタルエージェント」として評価するための新しいベンチマーク。視覚(GUI操作)・検索(Web情報収集)・コーディング(プログラム実行)の3能力を複合的に必要とする153タスクで構成され、98%のタスクが複数能力の組み合わせを要求する。各タスクは命令文と自動評価スクリプトのみで定義され、特定の実行環境に依存せず再現性が高い点が特徴。 実験では複数の最先端システムを評価。最高スコアはGPT-5.4+Codexの45.1%で、Claude Sonnet 4.6+OpenClawは34.0%、Gemini 3.1 Proは26.1%に留まる。オープンソースのKimi-k2.5は11.8%、Qwen3.5-397Bは9.8%と大幅に劣後。コーディング重視のスキャフォールド(Codex、Claude Code)が元々の用途を超えて汎用的に機能することも判明した。 失敗分析では、推論・計画エラー(54%)、ツール実行エラー(17%)、視覚的グラウンディングエラー(29%)の3類型を特定。ベンチマークとCocoa-Agentスキャフォールドはオープンソース公開され、統合エージェント研究の基盤として活用可能。 -
arxiv-cs-ai 1日前 3実世界対応のモバイルエージェント評価基盤「MobiFlow」登場MobiFlow: Real-World Mobile Agent Benchmarking through Trajectory Fusion
研究チームが任意のAndroidアプリに対応するエージェント評価フレームワーク「MobiFlow」を発表。 マルチ軌跡融合技術で状態空間を圧縮し、動的なUI操作を精度高く評価できる仕組みを実現。 既存手法の実世界乖離問題を解消し、モバイルエージェント研究の標準基盤となる可能性。
解説 モバイルエージェントとはスマートフォンのGUI操作を自律的に行うAIシステムで、ユーザーが指示したタスクを自動実行する。既存の代表的ベンチマークであるAndroidWorldはAndroidエミュレータのシステムレベルAPIを介してタスク成否を判定するが、実際の多くのサードパーティアプリはこうしたAPIを公開していないため、ベンチマークと実世界の乖離が生じていた。MobiFlowはこの問題を解決するため、任意のサードパーティアプリ上のタスクを評価対象とする新フレームワークを提案する。核心技術は「マルチ軌跡融合(Multi-Trajectory Fusion)」に基づくグラフ構築アルゴリズムで、複数の操作軌跡を統合して状態空間を効率的に圧縮し、同一目標への複数の到達経路を許容しながら動的なインタラクションにも対応する。これにより、APIが存在しないアプリでも画面状態の変化からタスク成否を評価できる。論文では20種類以上のアプリをカバーし、GPT-4oやClaude、Geminiなど主要LLMエージェントの性能を比較評価している。実用面では、企業が内製アプリや市販アプリ上でのエージェント性能をより正確に測定できるようになり、モバイルオートメーションの実用化を加速する意義がある。