エージェント評価

2件の記事

要約済み 2

hf-papers 1日前 4
新ベンチマークCocoaBench、最強エージェントでも成功率45%止まり
CocoaBench: Evaluating Unified Digital Agents in the Wild

視覚・検索・コーディングを複合的に要求する153タスクのベンチマーク「CocoaBench」が公開された。最高性能のGPT-5.4+Codexでも成功率45.1%、オープンソースのKimi-k2.5は11.8%にとどまった。現行AIエージェントの実力差と課題を可視化し、今後の開発指針として注目される。

解説 CocoaBenchは、LLMエージェントを単一能力ではなく「統合デジタルエージェント」として評価するための新しいベンチマーク。視覚（GUI操作）・検索（Web情報収集）・コーディング（プログラム実行）の3能力を複合的に必要とする153タスクで構成され、98%のタスクが複数能力の組み合わせを要求する。各タスクは命令文と自動評価スクリプトのみで定義され、特定の実行環境に依存せず再現性が高い点が特徴。実験では複数の最先端システムを評価。最高スコアはGPT-5.4+Codexの45.1%で、Claude Sonnet 4.6+OpenClawは34.0%、Gemini 3.1 Proは26.1%に留まる。オープンソースのKimi-k2.5は11.8%、Qwen3.5-397Bは9.8%と大幅に劣後。コーディング重視のスキャフォールド（Codex、Claude Code）が元々の用途を超えて汎用的に機能することも判明した。失敗分析では、推論・計画エラー（54%）、ツール実行エラー（17%）、視覚的グラウンディングエラー（29%）の3類型を特定。ベンチマークとCocoa-Agentスキャフォールドはオープンソース公開され、統合エージェント研究の基盤として活用可能。

エージェント評価ベンチマークマルチモーダル GUI自動化 LLMエージェント
anthropic-engineering 3ヶ月前 3
AIエージェント評価を体系化、実装ロードマップも公開
Demystifying evals for AI agents

AIエージェントの評価手法を体系化したガイドが公開され、コード・モデル・人間の3種グレーダーを詳解。コーディング・会話・研究・GUI操作など用途別の評価ベンチマークと「スイスチーズ型」多層評価戦略を提示。 20〜50タスクから始める具体的なロードマップも示し、エージェント開発者の評価設計を支援する。

エージェント評価ベストプラクティス Anthropic