Reasoning Model

1件の記事

要約済み 1

hf-papers 1日前 4
師弟協調フレームワークで推論モデルのSFT性能低下問題を解決
How to Fine-Tune a Reasoning Model? A Teacher-Student Cooperation Framework to Synthesize Student-Consistent SFT Data

強力な教師モデルの合成データでSFTすると推論モデルの性能が低下する問題を研究チームが特定・解決した。原因は師弟間のスタイル分布の乖離で、TESSYフレームワークが両モデルを交互に活用し整合性のあるデータを生成する。 Reasoning Modelの効率的なファインチューニングに新指針を示し、LLM開発プロセスの改善に貢献する。

解説本論文は、強力な教師モデル（GPT-OSS-120B）が生成した合成データでQwen3-8BをSFT（教師あり微調整）した際に性能が低下するという問題を分析し、その解決策を提案している。従来のSFTアプローチでは、より賢い教師モデルの回答を学習データとして使う「知識蒸留」的な手法が主流だが、教師と生徒の「文体（スタイル）」分布に大きな乖離があると、生徒モデルは自身の自然な分布から外れたデータを学ぶことになり、かえってパフォーマンスが落ちる（LiveCodeBench-Proで3.25%、OJBenchで10.02%の低下）。提案手法のTESSY（Teacher-Student Cooperation Data Synthesis）は、合成データ生成時に「スタイルトークン」と「非スタイルトークン」を分離し、スタイルトークンは生徒モデルが、推論の中核となる非スタイルトークンは教師モデルが担当する形で交互に生成する。これにより、教師の高度な推論能力を受け継ぎつつ、生徒モデルの文体的一貫性を保った合成データが作られる。実験結果では、TESSYによりLiveCodeBench-Proで+11.25%、OJBenchで+6.68%の改善を達成しており、単純な教師データ使用に対して合計で14〜17ポイント程度の差をつけている。Reasoning Modelのファインチューニングという実用上の重要課題に対し、具体的かつ効果的な解決策を示した点で実用価値が高い。

SFT Knowledge Distillation Reasoning Model Code Generation