事後学習
要約済み 1
-
hf-papers 2日前 4オフライン蒸留で推論モデルの学習コストを大幅削減Lightning OPD: Efficient Post-Training for Large Reasoning Models with Offline On-Policy Distillation
大規模推論モデルの事後学習を効率化する新手法「Lightning OPD」が発表された。 教師モデルの推論軌跡を活用し、高コストなオンライン強化学習を不要にする蒸留技術を実現。 少ない計算リソースで既存手法と同等以上の性能を達成し、推論モデル開発の民主化に貢献。
解説 本論文はLightning OPD(Offline On-Policy Distillation)と呼ばれる手法を提案し、DeepSeek-R1やQwQのような大規模推論モデル(LRM)の事後学習を大幅に効率化する。従来のオンラインRLベースの推論強化手法は、推論中に学生モデルがサンプリングを繰り返す必要があり、計算コストが極めて高い。一方で純粋なオフライン蒸留では、教師モデルが生成した軌跡と学生モデルの分布のミスマッチ(covariate shift)が問題になる。Lightning OPDはこの両者のトレードオフを克服するため、「オフライン」でありながら「オンポリシー」に近い分布のデータを活用する手法を採用する。具体的には、学生モデルの分布を考慮した軌跡収集や重み付けを行い、蒸留の品質を維持しながら学習コストを大幅に削減する。実験ではMATH、AIME等の数学推論ベンチマークにおいて、オンラインRL手法(GRPO等)と同等以上の精度を達成しつつ、学習時間・GPU消費を数分の一に抑えることが示されている。実用上は、限られた計算資源で強力な推論モデルを構築したい企業・研究者にとって有益な手法である。