推論モデルのSFT劣化問題、新フレームワーク「TESSY」で解決

arxiv-cs-ai 2026-04-17 04:00 ★4

推論モデルのSFT劣化問題、新フレームワーク「TESSY」で解決

How to Fine-Tune a Reasoning Model? A Teacher-Student Cooperation Framework to Synthesize Student-Consistent SFT Data

推論モデルファインチューニング合成データ知識蒸留

要約

教師モデルの合成データでSFTを行うと推論モデルの性能が低下する問題を解決するTESSYフレームワークが発表された。教師と学生モデルを交互に活用し、スタイル分布の乖離を防ぎながらQwen3-8Bなどの推論能力を向上させる。 GPT-OSS-120Bを教師に用いたコード生成タスクで有効性を実証し、高品質SFTデータ合成の新たな指針となる。

解説・分析

本論文は、強力な教師モデルが生成した合成データでSFT（教師あり微調整）を行っても、Qwen3-8Bのような推論特化モデルの性能が改善どころか大幅に低下するという実用上の重大な問題を取り上げる。原因として特定されたのが「スタイル的分布乖離」だ。教師モデルは推論チェーン（思考の流れ）を独自のスタイルで生成するため、学生モデルが普段使うトークン分布と大きく異なる。これを解消するために提案されたTESSY（Teacher-Student Cooperation Data Synthesis）は、教師と学生を交互に使ってトークンを生成するという独自のアーキテクチャを採る。具体的には、推論内容に関わる「非スタイルトークン」は教師が担当し、文体・フォーマットに関わる「スタイルトークン」は学生自身が担当することで、教師の高度な推論能力と学生のスタイル一貫性を両立した合成データを作る。実験ではGPT-OSS-120Bを教師としてQwen3-8Bをコード生成タスクでファインチューニングし、通常の教師データ活用では性能低下が見られるケースでもTESSYが改善をもたらすことを示した。既存の単純蒸留やデータフィルタリング手法と比較して優位性があり、推論モデルの実用的なSFTパイプラインに直結する知見として重要度が高い。

深掘り分析

🔒

この分析はProプラン限定です

Proプランに登録 →

原文を読む → https://arxiv.org/abs/2604.14164

← 一覧に戻る

AIフロントライン