AIフロントライン

公式ソースだけを集めたAIニュースを日本語要約でお届け

hf-papers 2026-04-14 04:01 ★4

新ベンチマークCocoaBench、最強エージェントでも成功率45%止まり

CocoaBench: Evaluating Unified Digital Agents in the Wild

エージェント評価 ベンチマーク マルチモーダル GUI自動化 LLMエージェント

要約

視覚・検索・コーディングを複合的に要求する153タスクのベンチマーク「CocoaBench」が公開された。 最高性能のGPT-5.4+Codexでも成功率45.1%、オープンソースのKimi-k2.5は11.8%にとどまった。 現行AIエージェントの実力差と課題を可視化し、今後の開発指針として注目される。

解説・分析

CocoaBenchは、LLMエージェントを単一能力ではなく「統合デジタルエージェント」として評価するための新しいベンチマーク。視覚(GUI操作)・検索(Web情報収集)・コーディング(プログラム実行)の3能力を複合的に必要とする153タスクで構成され、98%のタスクが複数能力の組み合わせを要求する。各タスクは命令文と自動評価スクリプトのみで定義され、特定の実行環境に依存せず再現性が高い点が特徴。

実験では複数の最先端システムを評価。最高スコアはGPT-5.4+Codexの45.1%で、Claude Sonnet 4.6+OpenClawは34.0%、Gemini 3.1 Proは26.1%に留まる。オープンソースのKimi-k2.5は11.8%、Qwen3.5-397Bは9.8%と大幅に劣後。コーディング重視のスキャフォールド(Codex、Claude Code)が元々の用途を超えて汎用的に機能することも判明した。

失敗分析では、推論・計画エラー(54%)、ツール実行エラー(17%)、視覚的グラウンディングエラー(29%)の3類型を特定。ベンチマークとCocoa-Agentスキャフォールドはオープンソース公開され、統合エージェント研究の基盤として活用可能。

関連する読者

開発者 研究者