推論能力

1件の記事

要約済み 1

hf-papers 4日前 3
新手法SCOPEでLLM推論の蒸留精度が大幅向上
SCOPE: Signal-Calibrated On-Policy Distillation Enhancement with Dual-Path Adaptive Weighting

研究者らがLLMの推論強化学習向けオンポリシー蒸留手法「SCOPE」を発表した。正誤別の二経路で教師・生徒モデルのパープレキシティに基づく適応的重み付けを実現。 6ベンチマークでAvg@32が11.42%向上し、推論モデルの学習効率化に貢献する。

解説 SCOPEはLLMの推論整合に使われるオンポリシー強化学習の弱点を補う手法。既存のOPDは全ロールアウトに一様なKL蒸留を適用するが、SCOPEは各ロールアウトを正解・不正解で二経路に分岐させる適応的枠組みを提案する。不正解軌跡には教師モデルのパープレキシティで重み付けしたKL蒸留を適用し、教師が真に修正能力を持つ事例を優先しつつ不確かな指導を抑制する。正解軌跡には生徒モデルのパープレキシティで重み付けしたMLE（最尤推定）を適用し、既習事例の過強化を避け能力境界付近の低信頼度サンプルに集中する。両経路にグループレベル正規化を用いてプロンプト間の難易度分散を補正する。6つの推論ベンチマークで競合ベースラインに対しAvg@32を平均11.42%、Pass@32を7.30%改善し、DeepSeekやQwenベースモデルとの組み合わせで汎用性も示した。信号品質に基づく適応的重み付けがトークンレベルのクレジット割り当て問題に有効であることを実証した実用的な手法。

オンポリシー強化学習知識蒸留推論能力 LLMアライメント