エージェント評価
要約済み 2
-
hf-papers 1日前 4新ベンチマークCocoaBench、最強エージェントでも成功率45%止まりCocoaBench: Evaluating Unified Digital Agents in the Wild
視覚・検索・コーディングを複合的に要求する153タスクのベンチマーク「CocoaBench」が公開された。 最高性能のGPT-5.4+Codexでも成功率45.1%、オープンソースのKimi-k2.5は11.8%にとどまった。 現行AIエージェントの実力差と課題を可視化し、今後の開発指針として注目される。
解説 CocoaBenchは、LLMエージェントを単一能力ではなく「統合デジタルエージェント」として評価するための新しいベンチマーク。視覚(GUI操作)・検索(Web情報収集)・コーディング(プログラム実行)の3能力を複合的に必要とする153タスクで構成され、98%のタスクが複数能力の組み合わせを要求する。各タスクは命令文と自動評価スクリプトのみで定義され、特定の実行環境に依存せず再現性が高い点が特徴。 実験では複数の最先端システムを評価。最高スコアはGPT-5.4+Codexの45.1%で、Claude Sonnet 4.6+OpenClawは34.0%、Gemini 3.1 Proは26.1%に留まる。オープンソースのKimi-k2.5は11.8%、Qwen3.5-397Bは9.8%と大幅に劣後。コーディング重視のスキャフォールド(Codex、Claude Code)が元々の用途を超えて汎用的に機能することも判明した。 失敗分析では、推論・計画エラー(54%)、ツール実行エラー(17%)、視覚的グラウンディングエラー(29%)の3類型を特定。ベンチマークとCocoa-Agentスキャフォールドはオープンソース公開され、統合エージェント研究の基盤として活用可能。 -
anthropic-engineering 3ヶ月前 3AIエージェント評価を体系化、実装ロードマップも公開Demystifying evals for AI agents
AIエージェントの評価手法を体系化したガイドが公開され、コード・モデル・人間の3種グレーダーを詳解。 コーディング・会話・研究・GUI操作など用途別の評価ベンチマークと「スイスチーズ型」多層評価戦略を提示。 20〜50タスクから始める具体的なロードマップも示し、エージェント開発者の評価設計を支援する。