効率化

4件の記事

要約済み 4

hf-papers 5時間前 4
動画トークン化を革新、8分の1のトークン数で同等品質
VideoFlexTok: Flexible-Length Coarse-to-Fine Video Tokenization

研究チームが可変長トークンによる粗から細への階層的動画トークン化手法「VideoFlexTok」を発表。 10秒81フレームの動画を672トークンで生成でき、従来比8分の1のトークン数・5倍小さなモデルで同等品質を実現。動画生成モデルの大幅な効率化が可能となり、低コストでの高品質動画生成への道を開く。

解説 VideoFlexTokは、動画を固定サイズの3D格子トークンではなく、粗から細への可変長トークン列で表現する新しいビデオトークナイザーである。時間因果アテンションを持つエンコーダが空間時間VAEの潜在表現を処理し、FSQ量子化（コードブックサイズ6.4万）でレジスタトークンを離散化する。Nested Dropout（後半トークンをランダムにマスク）により、先頭トークンに意味・動作情報が、後続トークンに細粒度の詳細が自然と集約される階層構造が創発する。デコーダはDiffusion Transformer（DiT）ベースで、DINOv2特徴を蒸留するREPA損失と整流フロー損失を組み合わせる。下流タスクではGPT型の自己回帰モデルでクラス・テキスト条件付き動画生成を行う。実験では、同等品質を達成するモデルサイズが従来比5〜10倍削減（1.1B対5.2B）、学習トークン数も5〜10倍削減された。10秒動画の生成に必要なトークン数は標準3D格子手法の8分の1（672対5,376）に圧縮された。固定サイズ手法（LARP等）と比較しFVDで競合または上回る結果を示し、大規模化時の計算効率は1桁以上の改善を達成している。

動画生成トークン化効率化拡散モデル自己回帰モデル
hf-papers 8時間前 4
オフライン蒸留で推論モデルの学習コストを大幅削減
Lightning OPD: Efficient Post-Training for Large Reasoning Models with Offline On-Policy Distillation

大規模推論モデルの事後学習を効率化する新手法「Lightning OPD」が発表された。教師モデルの推論軌跡を活用し、高コストなオンライン強化学習を不要にする蒸留技術を実現。少ない計算リソースで既存手法と同等以上の性能を達成し、推論モデル開発の民主化に貢献。

解説本論文はLightning OPD（Offline On-Policy Distillation）と呼ばれる手法を提案し、DeepSeek-R1やQwQのような大規模推論モデル（LRM）の事後学習を大幅に効率化する。従来のオンラインRLベースの推論強化手法は、推論中に学生モデルがサンプリングを繰り返す必要があり、計算コストが極めて高い。一方で純粋なオフライン蒸留では、教師モデルが生成した軌跡と学生モデルの分布のミスマッチ（covariate shift）が問題になる。Lightning OPDはこの両者のトレードオフを克服するため、「オフライン」でありながら「オンポリシー」に近い分布のデータを活用する手法を採用する。具体的には、学生モデルの分布を考慮した軌跡収集や重み付けを行い、蒸留の品質を維持しながら学習コストを大幅に削減する。実験ではMATH、AIME等の数学推論ベンチマークにおいて、オンラインRL手法（GRPO等）と同等以上の精度を達成しつつ、学習時間・GPU消費を数分の一に抑えることが示されている。実用上は、限られた計算資源で強力な推論モデルを構築したい企業・研究者にとって有益な手法である。

LLM 知識蒸留推論モデル事後学習効率化
arxiv-cs-ai 2日前 4
研究者ら、TTS推論コストを大幅削減するWANDを発表
WAND: Windowed Attention and Knowledge Distillation for Efficient Autoregressive Text-to-Speech Models

自己回帰型音声合成モデルの計算・メモリ効率を高めるWANDフレームワークが発表された。窓型注意機構と知識蒸留を組み合わせ、KVキャッシュを最大66.2%削減しながら品質を維持。リアルタイムTTSや端末上での音声合成など、低リソース環境への展開を大きく前進させる。

解説本論文は、近年高品質な音声合成を実現している自己回帰型テキスト読み上げ（AR-TTS）モデルの根本的な課題――シーケンス長に対して二次的に増大するメモリ・計算コスト――を解決するWAND（Windowed Attention and Knowledge Distillation）フレームワークを提案する。提案手法の核心は注意機構の二分化にある。テキストや話者情報などの「条件付けトークン」に対しては全系列を参照するグローバル注意を維持し、音声トークンとして生成されるトークン列には局所的なスライディングウィンドウ注意のみを適用する。これにより推論時のKVキャッシュ（各トークンの計算結果を保持するメモリ領域）が定数量に抑えられ、長い音声でも一定のメモリ使用量で動作する。ファインチューニング時の安定化には、最初は広い窓から徐々に窓サイズを縮小するカリキュラム学習を採用。さらに、フル注意を用いる教師モデルから生徒モデル（WAND）への知識蒸留を行い、データ効率よく高品質な合成を回復する。 3種の最新AR-TTSモデルで評価した結果、元のモデルと同等の品質を維持しつつ最大66.2%のKVキャッシュ削減と推論速度の向上を達成。長文読み上げや低メモリ環境での実用展開に直接的な意義を持ち、エッジデバイスへの音声合成モデル搭載を現実的にする成果といえる。

TTS 自己回帰モデルアテンション機構知識蒸留効率化
arxiv-cs-ai 2日前 3
木構造スパースFFN、1B超モデルで有効性実証
Dynamic sparsity in tree-structured feed-forward layers at scale

トランスフォーマーのMLP層を木構造の条件付き疎計算に置換する手法が1Bパラメータ超でも有効と確認された。 FFNユニットの活性化率5%未満で密なベースラインと同等性能を達成し、計算コストを大幅削減。大規模モデルの推論効率化に道を開く成果として、LLM開発者の注目を集めそうだ。

解説本論文は、トランスフォーマーのフィードフォワード（MLP）ブロックを「木構造スパースFFN層」で置換する手法を提案・検証しています。通常のMLP層は全ニューロンを活性化する密な計算を行いますが、提案手法では階層的なルーティング（木のノードをたどるように経路を選択）によって、トークンごとに必要なユニットのみを動的に活性化します。MoE（Mixture of Experts）のような別途ルーターネットワークを必要とせず、木構造のルーティング自体が計算の振り分けを担う点が特徴です。実験では、自己回帰言語モデリングおよびゼロ・フューショット質問応答タスクにおいて、FFNユニットの5%未満しか使用しないにもかかわらず、密なベースラインと同等の精度を達成。さらに10億パラメータ超のスケールでも有効性を確認しており、大規模モデルへの実用的な適用可能性を示しています。 GPT-4oやClaudeといった既存の大規模モデルと比較した直接評価ではないものの、同等の訓練・ファインチューニング条件下での比較でベースラインに追いつく点は重要です。また、学習ダイナミクスの分析から「自動枝刈り（auto-pruning）」効果が自然に出現することを発見しており、モデルの解釈性や効率化研究にも新たな知見を提供します。推論コスト削減が重要な実用応用（オンデバイスAI、低レイテンシAPIなど）に向けた有望なアプローチといえます。

スパースモデル条件付き計算トランスフォーマー MoE 効率化