動画トークン化を革新、8分の1のトークン数で同等品質

hf-papers 2026-04-15 06:00 ★4

動画トークン化を革新、8分の1のトークン数で同等品質

VideoFlexTok: Flexible-Length Coarse-to-Fine Video Tokenization

動画生成トークン化効率化拡散モデル自己回帰モデル

要約

研究チームが可変長トークンによる粗から細への階層的動画トークン化手法「VideoFlexTok」を発表。 10秒81フレームの動画を672トークンで生成でき、従来比8分の1のトークン数・5倍小さなモデルで同等品質を実現。動画生成モデルの大幅な効率化が可能となり、低コストでの高品質動画生成への道を開く。

解説・分析

VideoFlexTokは、動画を固定サイズの3D格子トークンではなく、粗から細への可変長トークン列で表現する新しいビデオトークナイザーである。時間因果アテンションを持つエンコーダが空間時間VAEの潜在表現を処理し、FSQ量子化（コードブックサイズ6.4万）でレジスタトークンを離散化する。Nested Dropout（後半トークンをランダムにマスク）により、先頭トークンに意味・動作情報が、後続トークンに細粒度の詳細が自然と集約される階層構造が創発する。デコーダはDiffusion Transformer（DiT）ベースで、DINOv2特徴を蒸留するREPA損失と整流フロー損失を組み合わせる。下流タスクではGPT型の自己回帰モデルでクラス・テキスト条件付き動画生成を行う。実験では、同等品質を達成するモデルサイズが従来比5〜10倍削減（1.1B対5.2B）、学習トークン数も5〜10倍削減された。10秒動画の生成に必要なトークン数は標準3D格子手法の8分の1（672対5,376）に圧縮された。固定サイズ手法（LARP等）と比較しFVDで競合または上回る結果を示し、大規模化時の計算効率は1桁以上の改善を達成している。

深掘り分析

🔒

この分析はProプラン限定です

Proプランに登録 →

原文を読む → https://huggingface.co/papers/2604.12887

← 一覧に戻る

AIフロントライン