Web検索エージェント
要約済み 1
-
hf-papers 3日前 4Web検索AIの限界を示す新ベンチマーク「MERRIN」登場MERRIN: A Benchmark for Multimodal Evidence Retrieval and Reasoning in Noisy Web Environments
ノイズの多いWeb環境でのマルチモーダル証拠検索・推論を評価する新ベンチマーク「MERRIN」が公開された。 動画・音声を含む複数モダリティと多段階推論を要求し、最高性能エージェントでも精度40.1%にとどまる高難度設計。 Web検索ベースAIの信頼性限界を定量的に示し、次世代エージェント開発の課題を明確化した。
解説 MERRINは、検索拡張エージェントを評価する新しいヒューマンアノテーション付きベンチマークである。従来のベンチマークと異なり、(1)モダリティを明示しない自然言語クエリ、(2)動画・音声など未開拓モダリティの組み込み、(3)ノイズや矛盾を含む複雑なWebコンテンツからのマルチホップ推論(複数ステップをまたぐ推論)が必要な点で先進的である。GPT-5.4-mini、Gemini 3/3.1 Flash/Pro、Qwen3シリーズ(4B〜235B)など10モデルを対象に、検索なし・ネイティブ検索・エージェント検索の3設定で評価した結果、全エージェント平均精度は22.3%に留まり、最高でもGemini Deep Researchの40.1%であった。強力なエージェントほど多くのステップとツールを使うが「過剰探索」に陥り、矛盾したコンテンツに惑わされて誤答する傾向が判明した。この結果は、現状の検索拡張AIが複雑なマルチモーダル推論タスクで依然大幅に性能不足であることを示しており、実用的なWeb検索エージェント開発の方向性を示す重要な知見である。