CoT蒸留

1件の記事

要約済み 1

hf-papers 10時間前 3
ポストトレーニングでLLM多様性が崩壊、原因が判明
Where does output diversity collapse in post-training?

ポストトレーニング後のLLMで出力多様性が低下するメカニズムが明らかになった。 OLMo 3を用いた追跡分析により、SFTやDPOといった微調整段階で多様性崩壊が組み込まれることが判明。推論時のCoT形式変更では解決できず、モデルの根本的な改善方針が示唆される。

解説本論文は、ポストトレーニング後のLLMで生じる「出力多様性崩壊」の発生箇所を系統的に特定した研究。OLMo 3をベースに、CoT蒸留（Think系）・広範マルチソースデータ（Instruct系）・強化学習（RL-Zero系）の3後処理系統を、15タスク・4つの多様性指標で比較追跡した。崩壊箇所はデータ組成に依存し、Think系はSFT段階で意味的多様性が大きく失われ、Instruct系ではDPOの影響が顕著だった。推論時にCoTを抑制しても解答レベルの多様性は変わらず、崩壊は生成フォーマットではなくモデル重みに起因することを実証。また多様性損失を「品質管理成分（不正解除去）」と「残余成分（正解間の真の縮小）」に分解する手法を提案し、分割比はタスク依存であることを示した。Best-of-Nなど推論時スケーリング手法の前提条件に直接関わる知見であり、ポストトレーニング設計における多様性とデータ組成の関係を体系化した点で実践的意義が高い。

出力多様性ポストトレーニング SFT DPO CoT蒸留