LLM応用
要約済み 1
-
arxiv-cs-ai 1日前 4査読AIエージェント、Gemini 2.5 Proを超える精度を達成DeepReviewer 2.0: A Traceable Agentic System for Auditable Scientific Peer Review
DeepReviewer 2.0が科学論文の査読を自動化するエージェント型システムとして発表された。 根拠アノテーションと証拠付き出力を生成し、ICLR 2025の134件でGemini 2.5 Proを上回る問題検出率を記録。 研究者の査読負担を大幅に削減し、科学的知見の信頼性向上に貢献する可能性がある。
解説 DeepReviewer 2.0は、科学論文の自動査読を「流暢な批評文の生成」ではなく「監査可能な判断の提供」として再定義したエージェント型システムです。 【仕組み】システムは3段階で動作します。①論文のみから「主張-証拠-リスク台帳(Claim-Evidence-Risk Ledger)」と検証アジェンダを構築、②アジェンダに基づく文献検索を実施、③アンカー付き批評(論文の該当箇所に紐付けられたコメント)を生成し、トレーサビリティと網羅性の基準を満たした場合のみエクスポート(出力ゲート機構)。この「プロセス制御+出力契約」が従来手法との最大の差別点です。 【実験結果】ICLR 2025の134件の投稿論文に対し、ファインチューニングなしの196Bモデルを用いて3種の固定プロトコルで評価。主要問題の検出率(Strict Major-Issue Coverage)がDeepReviewer 2.0は37.26%に対し、Gemini 2.5 Pro previewは23.57%と大差をつけ、さらに71.6%の比較で勝利しています。 【意義】査読者やエリアチェア(論文採否の管理者)が「どこに問題があり、何が根拠か」を確認できる追跡可能な査読レポートを提供することで、実際の学術査読プロセスへの導入可能性を高めています。