CoT蒸留
要約済み 1
-
hf-papers 10時間前 3ポストトレーニングでLLM多様性が崩壊、原因が判明Where does output diversity collapse in post-training?
ポストトレーニング後のLLMで出力多様性が低下するメカニズムが明らかになった。 OLMo 3を用いた追跡分析により、SFTやDPOといった微調整段階で多様性崩壊が組み込まれることが判明。 推論時のCoT形式変更では解決できず、モデルの根本的な改善方針が示唆される。
解説 本論文は、ポストトレーニング後のLLMで生じる「出力多様性崩壊」の発生箇所を系統的に特定した研究。OLMo 3をベースに、CoT蒸留(Think系)・広範マルチソースデータ(Instruct系)・強化学習(RL-Zero系)の3後処理系統を、15タスク・4つの多様性指標で比較追跡した。崩壊箇所はデータ組成に依存し、Think系はSFT段階で意味的多様性が大きく失われ、Instruct系ではDPOの影響が顕著だった。推論時にCoTを抑制しても解答レベルの多様性は変わらず、崩壊は生成フォーマットではなくモデル重みに起因することを実証。また多様性損失を「品質管理成分(不正解除去)」と「残余成分(正解間の真の縮小)」に分解する手法を提案し、分割比はタスク依存であることを示した。Best-of-Nなど推論時スケーリング手法の前提条件に直接関わる知見であり、ポストトレーニング設計における多様性とデータ組成の関係を体系化した点で実践的意義が高い。