LLM応用

1件の記事

要約済み 1

arxiv-cs-ai 1日前 4
査読AIエージェント、Gemini 2.5 Proを超える精度を達成
DeepReviewer 2.0: A Traceable Agentic System for Auditable Scientific Peer Review

DeepReviewer 2.0が科学論文の査読を自動化するエージェント型システムとして発表された。根拠アノテーションと証拠付き出力を生成し、ICLR 2025の134件でGemini 2.5 Proを上回る問題検出率を記録。研究者の査読負担を大幅に削減し、科学的知見の信頼性向上に貢献する可能性がある。

解説 DeepReviewer 2.0は、科学論文の自動査読を「流暢な批評文の生成」ではなく「監査可能な判断の提供」として再定義したエージェント型システムです。【仕組み】システムは3段階で動作します。①論文のみから「主張-証拠-リスク台帳（Claim-Evidence-Risk Ledger）」と検証アジェンダを構築、②アジェンダに基づく文献検索を実施、③アンカー付き批評（論文の該当箇所に紐付けられたコメント）を生成し、トレーサビリティと網羅性の基準を満たした場合のみエクスポート（出力ゲート機構）。この「プロセス制御＋出力契約」が従来手法との最大の差別点です。【実験結果】ICLR 2025の134件の投稿論文に対し、ファインチューニングなしの196Bモデルを用いて3種の固定プロトコルで評価。主要問題の検出率（Strict Major-Issue Coverage）がDeepReviewer 2.0は37.26%に対し、Gemini 2.5 Pro previewは23.57%と大差をつけ、さらに71.6%の比較で勝利しています。【意義】査読者やエリアチェア（論文採否の管理者）が「どこに問題があり、何が根拠か」を確認できる追跡可能な査読レポートを提供することで、実際の学術査読プロセスへの導入可能性を高めています。

自動査読エージェントAI 科学論文評価トレーサビリティ LLM応用