新ベンチマークCocoaBench、最強エージェントでも成功率45%止まり

hf-papers 2026-04-14 04:01 ★4

新ベンチマークCocoaBench、最強エージェントでも成功率45%止まり

CocoaBench: Evaluating Unified Digital Agents in the Wild

エージェント評価ベンチマークマルチモーダル GUI自動化 LLMエージェント

要約

視覚・検索・コーディングを複合的に要求する153タスクのベンチマーク「CocoaBench」が公開された。最高性能のGPT-5.4+Codexでも成功率45.1%、オープンソースのKimi-k2.5は11.8%にとどまった。現行AIエージェントの実力差と課題を可視化し、今後の開発指針として注目される。

解説・分析

CocoaBenchは、LLMエージェントを単一能力ではなく「統合デジタルエージェント」として評価するための新しいベンチマーク。視覚（GUI操作）・検索（Web情報収集）・コーディング（プログラム実行）の3能力を複合的に必要とする153タスクで構成され、98%のタスクが複数能力の組み合わせを要求する。各タスクは命令文と自動評価スクリプトのみで定義され、特定の実行環境に依存せず再現性が高い点が特徴。

実験では複数の最先端システムを評価。最高スコアはGPT-5.4+Codexの45.1%で、Claude Sonnet 4.6+OpenClawは34.0%、Gemini 3.1 Proは26.1%に留まる。オープンソースのKimi-k2.5は11.8%、Qwen3.5-397Bは9.8%と大幅に劣後。コーディング重視のスキャフォールド（Codex、Claude Code）が元々の用途を超えて汎用的に機能することも判明した。

失敗分析では、推論・計画エラー（54%）、ツール実行エラー（17%）、視覚的グラウンディングエラー（29%）の3類型を特定。ベンチマークとCocoa-Agentスキャフォールドはオープンソース公開され、統合エージェント研究の基盤として活用可能。

AIフロントライン

新ベンチマークCocoaBench、最強エージェントでも成功率45%止まり

要約

解説・分析

関連する読者