サンプル効率
要約済み 1
-
hf-papers 2日前 4外部教師なしでRFT超え——SD-Zeroが強化学習を刷新Self-Distillation Zero: Self-Revision Turns Binary Rewards into Dense Supervision
バイナリ報酬のみで密なトークンレベル教師信号を生成するSD-Zeroを研究者が発表。 単一モデルが生成と修正を兼任するオンポリシー自己蒸留により、同一計算コストでRFT・GRPOを凌駕。 外部アノテーション不要で数学・コード推論が10%超改善し、LLMのファインチューニングコスト削減に貢献。
解説 SD-Zero(Self-Distillation Zero)は、強化学習(RLVR)の疎なバイナリ報酬と蒸留の密なトークン教師信号それぞれの利点を、外部教師モデルや高品質デモなしで組み合わせた手法。単一モデルがGeneratorとReviserという2つの役割を同時に担う点が核心。Generatorが初期回答を生成し、Reviserはその回答とバイナリ報酬(正解/不正解)を条件入力として受け取り改善版回答を生成する。その後、ReviserのトークンレベルID分布をGeneratorへの自己蒸留用教師信号として使用するオンポリシー蒸留を行う。これによりバイナリ報酬が密なトークンレベルの自己教師信号へ変換される仕組みだ。Qwen3-4B-InstructとOlmo-3-7B-Instructを用いた数学・コード推論ベンチマークにて、同一質問セット・学習サンプル予算のもとRFT、GRPO、SDFT(外部教師あり自己蒸留)をすべて上回り、ベースモデル比10%以上の性能改善を達成した。GPT-4oやClaudeのような大規模外部教師モデルが不要なため、コスト面での実用的意義も大きく、限られたリソースでポストトレーニングを行いたい開発者・研究者にとって重要な手法となる。