マルチホップ推論
要約済み 1
-
hf-papers 2日前 3MERRINベンチマーク公開、最高精度40%の難関課題MERRIN: A Benchmark for Multimodal Evidence Retrieval and Reasoning in Noisy Web Environments
研究チームがノイズの多いウェブ環境でのマルチモーダル証拠検索・推論を評価するベンチマーク「MERRIN」を公開。 動画・音声を含む多様なモダリティと矛盾情報への対応を測定し、10モデル評価で平均精度22.3%・最高40.1%を記録。 既存ベンチマークの弱点を補う難易度の高い評価基準として、AIエージェント開発の指標になり得る。
解説 MERRINは、あいまいな自然言語クエリと、矛盾・ノイズを含む現実のウェブ情報を前提とした、検索強化型AIエージェントの評価ベンチマークです。既存のベンチマークと異なる点は3つあります。①クエリにモダリティの手がかりを明示せず、エージェントが自律的に必要なモダリティ(テキスト・画像・動画・音声)を判断しなければならない点。②動画・音声といった従来ベンチマークで軽視されてきたモダリティを含む点。③複数ソースにまたがるマルチホップ推論(複数ステップの論理的推論)が必要で、かつソース間で情報が矛盾している点です。 GPT-5.4-mini、Gemini 3/3.1 Flash/Pro、Qwen3-4B/30B/235Bなど10モデルを対象に、(1)検索なし、(2)ネイティブ検索、(3)エージェント型検索の3設定で評価した結果、全エージェントの平均精度は22.3%、最高でもGemini Deep Researchの40.1%にとどまりました。高性能なエージェントほど多くのステップとツールを使う「過剰探索」に陥り、部分的に関連するだけのコンテンツに惑わされて誤答する傾向が観察されています。この結果は、現状のLLMが複雑なマルチモーダル・マルチホップウェブ検索において未だ大きな課題を抱えることを示しており、実用的な検索エージェント開発における重要な評価基盤となります。