査読スコアとコメントに大きな乖離、「丁寧さ原則」を解明
Decoupling Scores and Text: The Politeness Principle in Peer Review
査読分析
自然言語処理
学術評価
要約
ICLR2021〜2025の3万件超の査読データを分析した研究が発表された。
スコアベースの採否予測は91%の精度だが、テキストベースでは81%に留まることが判明。
礼儀正しいコメントが実際の評価を隠す構造的バイアスが示され、AI査読ツール開発に影響を与えそうだ。
無料登録でニュースレターを受け取る
毎週AIニュースのTop5をお届けします(無料)
無料登録 →
Proプランで深掘り分析・全アーカイブを読む
月額300円 / 年額2,400円 / Founding Member 5,000円(買い切り)
Proプランを見る →
原文を読む →
https://arxiv.org/abs/2604.14162
本研究はICLR2021〜2025の3万件超の査読データを構築し、採否予測における数値スコアとテキストレビューの性能差を実証的に分析した。スコアベースモデルは91%の精度を達成する一方、GPT-4oなどの大規模言語モデルを活用したテキストベースモデルは81%に留まり、約10ポイントの顕著な差が確認された。スコアベースモデルが失敗する9%のケースを分析したところ、スコア分布の尖度が高く負の歪度を持つ傾向が判明し、平均スコアが境界付近であっても個別の低スコアが採否を決定づけることが示された。テキストとスコアの乖離の原因として「丁寧さ原則」を提唱:査読者は低評価時でも礼儀正しい表現を使うため、著者がテキストから楽観的な印象を誤って得やすい。著者が好意的コメントから過度な期待を抱くリスクを定量化した点で、研究者にとって実用的な示唆が大きい論文。