サンプル効率

1件の記事

要約済み 1

hf-papers 2日前 4
外部教師なしでRFT超え——SD-Zeroが強化学習を刷新
Self-Distillation Zero: Self-Revision Turns Binary Rewards into Dense Supervision

バイナリ報酬のみで密なトークンレベル教師信号を生成するSD-Zeroを研究者が発表。単一モデルが生成と修正を兼任するオンポリシー自己蒸留により、同一計算コストでRFT・GRPOを凌駕。外部アノテーション不要で数学・コード推論が10%超改善し、LLMのファインチューニングコスト削減に貢献。

解説 SD-Zero（Self-Distillation Zero）は、強化学習（RLVR）の疎なバイナリ報酬と蒸留の密なトークン教師信号それぞれの利点を、外部教師モデルや高品質デモなしで組み合わせた手法。単一モデルがGeneratorとReviserという2つの役割を同時に担う点が核心。Generatorが初期回答を生成し、Reviserはその回答とバイナリ報酬（正解/不正解）を条件入力として受け取り改善版回答を生成する。その後、ReviserのトークンレベルID分布をGeneratorへの自己蒸留用教師信号として使用するオンポリシー蒸留を行う。これによりバイナリ報酬が密なトークンレベルの自己教師信号へ変換される仕組みだ。Qwen3-4B-InstructとOlmo-3-7B-Instructを用いた数学・コード推論ベンチマークにて、同一質問セット・学習サンプル予算のもとRFT、GRPO、SDFT（外部教師あり自己蒸留）をすべて上回り、ベースモデル比10%以上の性能改善を達成した。GPT-4oやClaudeのような大規模外部教師モデルが不要なため、コスト面での実用的意義も大きく、限られたリソースでポストトレーニングを行いたい開発者・研究者にとって重要な手法となる。

自己蒸留強化学習数学推論コード推論サンプル効率