知識蒸留

hf-papers 8時間前 4

Lightning OPD: Efficient Post-Training for Large Reasoning Models with Offline On-Policy Distillation

大規模推論モデルの事後学習を効率化する新手法「Lightning OPD」が発表された。教師モデルの推論軌跡を活用し、高コストなオンライン強化学習を不要にする蒸留技術を実現。少ない計算リソースで既存手法と同等以上の性能を達成し、推論モデル開発の民主化に貢献。

解説本論文はLightning OPD（Offline On-Policy Distillation）と呼ばれる手法を提案し、DeepSeek-R1やQwQのような大規模推論モデル（LRM）の事後学習を大幅に効率化する。従来のオンラインRLベースの推論強化手法は、推論中に学生モデルがサンプリングを繰り返す必要があり、計算コストが極めて高い。一方で純粋なオフライン蒸留では、教師モデルが生成した軌跡と学生モデルの分布のミスマッチ（covariate shift）が問題になる。Lightning OPDはこの両者のトレードオフを克服するため、「オフライン」でありながら「オンポリシー」に近い分布のデータを活用する手法を採用する。具体的には、学生モデルの分布を考慮した軌跡収集や重み付けを行い、蒸留の品質を維持しながら学習コストを大幅に削減する。実験ではMATH、AIME等の数学推論ベンチマークにおいて、オンラインRL手法（GRPO等）と同等以上の精度を達成しつつ、学習時間・GPU消費を数分の一に抑えることが示されている。実用上は、限られた計算資源で強力な推論モデルを構築したい企業・研究者にとって有益な手法である。

LLM 知識蒸留推論モデル事後学習効率化

arxiv-cs-ai 2日前 4

研究者ら、TTS推論コストを大幅削減するWANDを発表

WAND: Windowed Attention and Knowledge Distillation for Efficient Autoregressive Text-to-Speech Models

自己回帰型音声合成モデルの計算・メモリ効率を高めるWANDフレームワークが発表された。窓型注意機構と知識蒸留を組み合わせ、KVキャッシュを最大66.2%削減しながら品質を維持。リアルタイムTTSや端末上での音声合成など、低リソース環境への展開を大きく前進させる。

解説本論文は、近年高品質な音声合成を実現している自己回帰型テキスト読み上げ（AR-TTS）モデルの根本的な課題――シーケンス長に対して二次的に増大するメモリ・計算コスト――を解決するWAND（Windowed Attention and Knowledge Distillation）フレームワークを提案する。提案手法の核心は注意機構の二分化にある。テキストや話者情報などの「条件付けトークン」に対しては全系列を参照するグローバル注意を維持し、音声トークンとして生成されるトークン列には局所的なスライディングウィンドウ注意のみを適用する。これにより推論時のKVキャッシュ（各トークンの計算結果を保持するメモリ領域）が定数量に抑えられ、長い音声でも一定のメモリ使用量で動作する。ファインチューニング時の安定化には、最初は広い窓から徐々に窓サイズを縮小するカリキュラム学習を採用。さらに、フル注意を用いる教師モデルから生徒モデル（WAND）への知識蒸留を行い、データ効率よく高品質な合成を回復する。 3種の最新AR-TTSモデルで評価した結果、元のモデルと同等の品質を維持しつつ最大66.2%のKVキャッシュ削減と推論速度の向上を達成。長文読み上げや低メモリ環境での実用展開に直接的な意義を持ち、エッジデバイスへの音声合成モデル搭載を現実的にする成果といえる。

TTS 自己回帰モデルアテンション機構知識蒸留効率化

hf-blog 1年前 2

エッジAI時代の本命SLM、主要モデルを徹底解剖

Small Language Models (SLM): A Comprehensive OverviewFeb 22, 2025•147

1M〜10Bパラメータの小規模言語モデル（SLM）を網羅的に解説した技術記事が公開された。 Llama3.2・Phi-3.5・Gemma3など主要SLMを比較し、蒸留・量子化等の圧縮技術を体系整理。エッジ・モバイル展開を目指す開発者にとって実践的な参照資料となる内容。

解説 SLMはGPT-4oやClaude等の大規模モデルを補完する位置づけで、エッジデバイスやプライバシー重視の用途で需要が拡大している。本記事は包括的なサーベイとして有用だが、新手法の提案ではなく既存知見の整理である。開発者にとってはLoRAやOllamaを用いた実装例が実践的で、SLM導入の入門資料として価値がある。研究者には参照論文リストが出発点となる。

SLM モデル圧縮エッジAI 知識蒸留 LoRA

要約済み 3