AIフロントライン

公式ソースだけを集めたAI最前線(日本語要約)

hf-papers 2026-04-15 06:00 ★4

動画トークン化を革新、8分の1のトークン数で同等品質

VideoFlexTok: Flexible-Length Coarse-to-Fine Video Tokenization

動画生成 トークン化 効率化 拡散モデル 自己回帰モデル

要約

研究チームが可変長トークンによる粗から細への階層的動画トークン化手法「VideoFlexTok」を発表。 10秒81フレームの動画を672トークンで生成でき、従来比8分の1のトークン数・5倍小さなモデルで同等品質を実現。 動画生成モデルの大幅な効率化が可能となり、低コストでの高品質動画生成への道を開く。

解説・分析

VideoFlexTokは、動画を固定サイズの3D格子トークンではなく、粗から細への可変長トークン列で表現する新しいビデオトークナイザーである。時間因果アテンションを持つエンコーダが空間時間VAEの潜在表現を処理し、FSQ量子化(コードブックサイズ6.4万)でレジスタトークンを離散化する。Nested Dropout(後半トークンをランダムにマスク)により、先頭トークンに意味・動作情報が、後続トークンに細粒度の詳細が自然と集約される階層構造が創発する。デコーダはDiffusion Transformer(DiT)ベースで、DINOv2特徴を蒸留するREPA損失と整流フロー損失を組み合わせる。下流タスクではGPT型の自己回帰モデルでクラス・テキスト条件付き動画生成を行う。実験では、同等品質を達成するモデルサイズが従来比5〜10倍削減(1.1B対5.2B)、学習トークン数も5〜10倍削減された。10秒動画の生成に必要なトークン数は標準3D格子手法の8分の1(672対5,376)に圧縮された。固定サイズ手法(LARP等)と比較しFVDで競合または上回る結果を示し、大規模化時の計算効率は1桁以上の改善を達成している。

関連する読者

開発者 研究者
Pro

深掘り分析

🔒

この分析はProプラン限定です

Proプランに登録 →