ベンチマーク評価

1件の記事

要約済み 1

hf-papers 6時間前 4
Deep Research AI評価基準「DR³-Eval」登場、Claude Sonnet 4が首位
DR^{3}-Eval: Towards Realistic and Reproducible Deep Research Evaluation

研究者らが現実性・再現性・制御性を兼ね備えたDeep Research評価フレームワーク「DR³-Eval」を発表した。マルチモーダルなユーザーファイルと静的コーパスを用いた現実的な評価環境を実現し、主要モデルの幻覚問題も浮き彫りに。 Claude Sonnet 4が最高65.6%で首位に立ち、AIエージェント開発の標準ベンチマークとなる可能性がある。

解説 DR³-Evalは、Deep Research Agent（DRA）を評価する新ベンチマーク。ライブウェブ依存による再現性欠如や、テキスト限定タスクによる現実性不足という既存評価の課題を解決する。ボランティアから収集した実文書・画像・動画・音声を含むユーザーファイルと、有益文書・妨害文書・雑音文書からなる静的サンドボックスコーパスを組み合わせた100タスクを構築。「逆構築法（Reverse Construction）」で証拠から遡ってクエリを生成することで、解答経路が一意に定まる設計を実現。評価は情報回収率（IR）・引用網羅率（CC）・事実正確性（FA）・指示遵守率（IF）・分析深度（DQ）の5指標で行う。実験ではClaude Sonnet 4が平均65.6%で首位、Gemini-2.5-Proが57.0%、GPT-4.1が50.9%と続いた。主要な失敗要因は検索エラーではなく幻覚（ハルシネーション）であり、長期推論中に証拠への接地が失われることが課題と判明。サンドボックスがライブウェブの現実的な代替となることも統計的に検証された。

ベンチマーク評価 Deep Research LLMエージェントマルチモーダル情報検索