Reasoning Model
要約済み 1
-
hf-papers 1日前 4師弟協調フレームワークで推論モデルのSFT性能低下問題を解決How to Fine-Tune a Reasoning Model? A Teacher-Student Cooperation Framework to Synthesize Student-Consistent SFT Data
強力な教師モデルの合成データでSFTすると推論モデルの性能が低下する問題を研究チームが特定・解決した。 原因は師弟間のスタイル分布の乖離で、TESSYフレームワークが両モデルを交互に活用し整合性のあるデータを生成する。 Reasoning Modelの効率的なファインチューニングに新指針を示し、LLM開発プロセスの改善に貢献する。
解説 本論文は、強力な教師モデル(GPT-OSS-120B)が生成した合成データでQwen3-8BをSFT(教師あり微調整)した際に性能が低下するという問題を分析し、その解決策を提案している。 従来のSFTアプローチでは、より賢い教師モデルの回答を学習データとして使う「知識蒸留」的な手法が主流だが、教師と生徒の「文体(スタイル)」分布に大きな乖離があると、生徒モデルは自身の自然な分布から外れたデータを学ぶことになり、かえってパフォーマンスが落ちる(LiveCodeBench-Proで3.25%、OJBenchで10.02%の低下)。 提案手法のTESSY(Teacher-Student Cooperation Data Synthesis)は、合成データ生成時に「スタイルトークン」と「非スタイルトークン」を分離し、スタイルトークンは生徒モデルが、推論の中核となる非スタイルトークンは教師モデルが担当する形で交互に生成する。これにより、教師の高度な推論能力を受け継ぎつつ、生徒モデルの文体的一貫性を保った合成データが作られる。 実験結果では、TESSYによりLiveCodeBench-Proで+11.25%、OJBenchで+6.68%の改善を達成しており、単純な教師データ使用に対して合計で14〜17ポイント程度の差をつけている。Reasoning Modelのファインチューニングという実用上の重要課題に対し、具体的かつ効果的な解決策を示した点で実用価値が高い。