要約
研究チームが可変長トークンによる粗から細への階層的動画トークン化手法「VideoFlexTok」を発表。 10秒81フレームの動画を672トークンで生成でき、従来比8分の1のトークン数・5倍小さなモデルで同等品質を実現。 動画生成モデルの大幅な効率化が可能となり、低コストでの高品質動画生成への道を開く。
公式ソースだけを集めたAI最前線(日本語要約)
VideoFlexTok: Flexible-Length Coarse-to-Fine Video Tokenization
研究チームが可変長トークンによる粗から細への階層的動画トークン化手法「VideoFlexTok」を発表。 10秒81フレームの動画を672トークンで生成でき、従来比8分の1のトークン数・5倍小さなモデルで同等品質を実現。 動画生成モデルの大幅な効率化が可能となり、低コストでの高品質動画生成への道を開く。
VideoFlexTokは、動画を固定サイズの3D格子トークンではなく、粗から細への可変長トークン列で表現する新しいビデオトークナイザーである。時間因果アテンションを持つエンコーダが空間時間VAEの潜在表現を処理し、FSQ量子化(コードブックサイズ6.4万)でレジスタトークンを離散化する。Nested Dropout(後半トークンをランダムにマスク)により、先頭トークンに意味・動作情報が、後続トークンに細粒度の詳細が自然と集約される階層構造が創発する。デコーダはDiffusion Transformer(DiT)ベースで、DINOv2特徴を蒸留するREPA損失と整流フロー損失を組み合わせる。下流タスクではGPT型の自己回帰モデルでクラス・テキスト条件付き動画生成を行う。実験では、同等品質を達成するモデルサイズが従来比5〜10倍削減(1.1B対5.2B)、学習トークン数も5〜10倍削減された。10秒動画の生成に必要なトークン数は標準3D格子手法の8分の1(672対5,376)に圧縮された。固定サイズ手法(LARP等)と比較しFVDで競合または上回る結果を示し、大規模化時の計算効率は1桁以上の改善を達成している。