多段推論
要約済み 1
-
hf-blog 2日前 3IBM、エージェントAIの限界を実証するベンチマーク公開Inside VAKRA: Reasoning, Tool Use, and Failure Modes of Agents
IBM ResearchがエンタープライズAI向け評価基準VAKRAの詳細分析を公開した。 API連携・ツール選択・多段推論・ポリシー遵守の4軸で主要モデルを比較評価。 単独ツール呼び出しは可能でも複合推論での信頼性に大きな課題があることが判明。
解説 VAKRAはIBM Researchが開発した、エンタープライズ環境を想定したエージェント評価ベンチマーク。8,000以上のローカルAPIと62ドメインを用い、(1)API連携、(2)ツール選択(最大328ツールから選択)、(3)多段推論、(4)APIとドキュメント検索を組み合わせたマルチソース推論+ポリシー遵守の4能力を評価する。GPT-OSS-120B・Gemini-3-flash-preview・Claude Sonnet 4.5・Granite-4.0-h-Small-32Bを比較した結果、GPT-OSS-120BはAPI連携で最強、GeminiはツールI選択で最優秀という棲み分けが見られた。一方で全モデルともホップ数増加に伴い性能が急落し、APIとRAGを組み合わせたハイブリッド推論が最も困難と判明。ポリシー制約の遵守ではGraniteのみが安定し、他モデルは制約違反や情報不足が多発。単体ツール呼び出し能力と複合的なエンドツーエンド信頼性の間に深刻なギャップが存在することを実証した点が本研究の最大の貢献である。