学術評価

1件の記事

要約済み 1

arxiv-cs-ai 5時間前 3
査読スコアとコメントに大きな乖離、「丁寧さ原則」を解明
Decoupling Scores and Text: The Politeness Principle in Peer Review

ICLR2021〜2025の3万件超の査読データを分析した研究が発表された。スコアベースの採否予測は91%の精度だが、テキストベースでは81%に留まることが判明。礼儀正しいコメントが実際の評価を隠す構造的バイアスが示され、AI査読ツール開発に影響を与えそうだ。

解説本研究はICLR2021〜2025の3万件超の査読データを構築し、採否予測における数値スコアとテキストレビューの性能差を実証的に分析した。スコアベースモデルは91%の精度を達成する一方、GPT-4oなどの大規模言語モデルを活用したテキストベースモデルは81%に留まり、約10ポイントの顕著な差が確認された。スコアベースモデルが失敗する9%のケースを分析したところ、スコア分布の尖度が高く負の歪度を持つ傾向が判明し、平均スコアが境界付近であっても個別の低スコアが採否を決定づけることが示された。テキストとスコアの乖離の原因として「丁寧さ原則」を提唱：査読者は低評価時でも礼儀正しい表現を使うため、著者がテキストから楽観的な印象を誤って得やすい。著者が好意的コメントから過度な期待を抱くリスクを定量化した点で、研究者にとって実用的な示唆が大きい論文。

査読分析自然言語処理学術評価