自動評価
要約済み 1
-
hf-papers 1日前 3BERT活用の軽量LLM評価手法、大規模モデルと同等精度を実現BERT-as-a-Judge: A Robust Alternative to Lexical Methods for Efficient Reference-Based LLM Evaluation
研究チームが語彙マッチ系評価手法の限界を36モデル・15タスクで実証し、新手法「BERT-as-a-Judge」を発表。 BERT系エンコーダと合成アノテーションで軽量学習し、GPT-4級のLLMジャッジと同等の評価精度を低コストで達成。 LLM評価の計算コスト削減と大規模スケールへの適用可能性を広げ、評価インフラの民主化に貢献。
解説 LLMの出力評価において広く使われてきた「語彙的手法(Exact Match・F1スコアなど)」は、モデルが正解を導き出していても表現形式が異なるだけで不正解と判定してしまうという根本的な問題を抱えている。本論文はこの問題を36モデル・15タスクの大規模実験で定量的に示し、語彙的評価と人間の判断の相関が低いことを実証した。 提案手法「BERT-as-a-Judge」は、エンコーダ型モデル(BERT系)を用いて「質問・候補回答・参照回答」の三つ組(QCRトリプレット)を入力とし、意味的な正しさを判定する。学習データは合成アノテーションで自動生成するため、人手コストを大幅に削減できる。 比較実験では、GPT-4oやClaude等の大規模LLMを「裁判官」として使うLLM-as-a-Judge手法と同等の精度を達成しつつ、推論コストは大幅に低い。語彙的手法と大規模LLMジャッジの間の現実的なトレードオフとして機能し、継続的評価パイプラインや大規模ベンチマークに実用的な選択肢を提供する。開発者がLLM評価基盤を構築・運用するコストを下げる点で実用上の意義が大きい。