事後学習

1件の記事

要約済み 1

hf-papers 2日前 4
オフライン蒸留で推論モデルの学習コストを大幅削減
Lightning OPD: Efficient Post-Training for Large Reasoning Models with Offline On-Policy Distillation

大規模推論モデルの事後学習を効率化する新手法「Lightning OPD」が発表された。教師モデルの推論軌跡を活用し、高コストなオンライン強化学習を不要にする蒸留技術を実現。少ない計算リソースで既存手法と同等以上の性能を達成し、推論モデル開発の民主化に貢献。

解説本論文はLightning OPD（Offline On-Policy Distillation）と呼ばれる手法を提案し、DeepSeek-R1やQwQのような大規模推論モデル（LRM）の事後学習を大幅に効率化する。従来のオンラインRLベースの推論強化手法は、推論中に学生モデルがサンプリングを繰り返す必要があり、計算コストが極めて高い。一方で純粋なオフライン蒸留では、教師モデルが生成した軌跡と学生モデルの分布のミスマッチ（covariate shift）が問題になる。Lightning OPDはこの両者のトレードオフを克服するため、「オフライン」でありながら「オンポリシー」に近い分布のデータを活用する手法を採用する。具体的には、学生モデルの分布を考慮した軌跡収集や重み付けを行い、蒸留の品質を維持しながら学習コストを大幅に削減する。実験ではMATH、AIME等の数学推論ベンチマークにおいて、オンラインRL手法（GRPO等）と同等以上の精度を達成しつつ、学習時間・GPU消費を数分の一に抑えることが示されている。実用上は、限られた計算資源で強力な推論モデルを構築したい企業・研究者にとって有益な手法である。

LLM 知識蒸留推論モデル事後学習効率化