自己回帰モデル
要約済み 4
-
hf-papers 5時間前 4動画トークン化を革新、8分の1のトークン数で同等品質VideoFlexTok: Flexible-Length Coarse-to-Fine Video Tokenization
研究チームが可変長トークンによる粗から細への階層的動画トークン化手法「VideoFlexTok」を発表。 10秒81フレームの動画を672トークンで生成でき、従来比8分の1のトークン数・5倍小さなモデルで同等品質を実現。 動画生成モデルの大幅な効率化が可能となり、低コストでの高品質動画生成への道を開く。
解説 VideoFlexTokは、動画を固定サイズの3D格子トークンではなく、粗から細への可変長トークン列で表現する新しいビデオトークナイザーである。時間因果アテンションを持つエンコーダが空間時間VAEの潜在表現を処理し、FSQ量子化(コードブックサイズ6.4万)でレジスタトークンを離散化する。Nested Dropout(後半トークンをランダムにマスク)により、先頭トークンに意味・動作情報が、後続トークンに細粒度の詳細が自然と集約される階層構造が創発する。デコーダはDiffusion Transformer(DiT)ベースで、DINOv2特徴を蒸留するREPA損失と整流フロー損失を組み合わせる。下流タスクではGPT型の自己回帰モデルでクラス・テキスト条件付き動画生成を行う。実験では、同等品質を達成するモデルサイズが従来比5〜10倍削減(1.1B対5.2B)、学習トークン数も5〜10倍削減された。10秒動画の生成に必要なトークン数は標準3D格子手法の8分の1(672対5,376)に圧縮された。固定サイズ手法(LARP等)と比較しFVDで競合または上回る結果を示し、大規模化時の計算効率は1桁以上の改善を達成している。 -
hf-papers 8時間前 4新AR手法でImageNet画像生成の世界最高精度を更新Generative Refinement Networks for Visual Synthesis
研究チームが精錬型自己回帰ネットワーク(GRN)を発表、ImageNet C2IでgFID 1.81の新SOTAを達成。 HBQ量子化で連続表現と同等の再構成品質を実現し、全体的精錬機構で誤差蓄積を防ぐ新アーキテクチャ。 2Bパラメータで画像・動画生成ともに既存手法を凌駕し、生成AI基盤モデル研究に新たな指針を示す。
解説 GRN(Generative Refinement Networks)はByteDanceが提案する視覚生成の新パラダイムで、拡散モデルとAR(自己回帰)モデルそれぞれの欠点を同時に克服する。核心技術のHBQ(階層的二値量子化)はVAEの連続特徴をM回の二値決定木で離散化し、量子化誤差が2^(-M)で指数減衰するため理論上ほぼ無損失を達成。ImageNetでは連続VAE(rFID 0.87)を上回るrFID 0.56を記録した。生成フェーズでは「全体的精錬機構」を採用。ランダムトークンマップを出発点として、毎ステップで全トークンを予測・更新することで「塗りつぶし・精錬・消去」を一体化。従来ARモデルが抱える誤差蓄積(一度確定したトークンを後から修正できない問題)を根本解決している。アブレーションではマスクベース手法(gFID 18.13)に対しGRNは3.63を達成し精錬機構の効果を定量的に示す。さらにエントロピー誘導型の複雑度適応サンプリングにより、単純な画像には少ないステップ、複雑な画像には多いステップを動的割当て、品質を維持しつつ計算コストを削減する。比較実験では2BモデルでSD3 Medium(GenEval 0.62)やInfinity(0.71)を上回るGenEval 0.76を達成し、T2VではCogVideoX-5B(5B)を2Bで凌駕する。 -
hf-papers 1日前 4自己回帰モデルSATO、プロ品質3Dメッシュ生成で既存手法を圧倒Strips as Tokens: Artist Mesh Generation with Native UV Segmentation
研究チームが三角形ストリップ着想のトークン化で3Dメッシュを自己回帰生成するモデル「SATO」を発表。 三角・四角メッシュの統一生成とUVチャート分割を単一モデルで同時予測し、DeepMeshやBPTを主要指標で大幅に上回る。 プロ3Dアーティスト評価でも首位を獲得し、ゲーム・映像制作の3D制作ワークフロー自動化に道を開く。
解説 SATOは、3Dグラフィクスの古典的手法「トライアングルストリップ」をトークン化の基本単位として採用した自己回帰Transformerフレームワーク。従来の頂点座標ベース手法(DeepMesh、BPTなど)は長いシーケンスを要し、エッジフローの整合性も失われがちだった。SATOはメッシュのトポロジーをジッパー状に連鎖した「ストリップ」に変換し、ストライドパラメータ(δ=1で三角、δ=2で四角)を切り替えるだけで同一モデルが両メッシュタイプを生成できる点が革新的。さらに、ボキャブラリー拡張によりUVアイランドの境界トークンを語彙に直接組み込み、ジオメトリ生成と同時にUV分割マップを予測する世界初の自己回帰手法を実現した。実験ではMeshAnythingV2比でF1スコア0.807対0.361と倍以上の精度向上を達成。25名のプロ3Dアーティストによるユーザースタディでも最高評価を獲得。ゲーム・映像制作向けの高品質アセット自動生成パイプラインへの応用が期待される。 -
arxiv-cs-ai 2日前 4研究者ら、TTS推論コストを大幅削減するWANDを発表WAND: Windowed Attention and Knowledge Distillation for Efficient Autoregressive Text-to-Speech Models
自己回帰型音声合成モデルの計算・メモリ効率を高めるWANDフレームワークが発表された。 窓型注意機構と知識蒸留を組み合わせ、KVキャッシュを最大66.2%削減しながら品質を維持。 リアルタイムTTSや端末上での音声合成など、低リソース環境への展開を大きく前進させる。
解説 本論文は、近年高品質な音声合成を実現している自己回帰型テキスト読み上げ(AR-TTS)モデルの根本的な課題――シーケンス長に対して二次的に増大するメモリ・計算コスト――を解決するWAND(Windowed Attention and Knowledge Distillation)フレームワークを提案する。 提案手法の核心は注意機構の二分化にある。テキストや話者情報などの「条件付けトークン」に対しては全系列を参照するグローバル注意を維持し、音声トークンとして生成されるトークン列には局所的なスライディングウィンドウ注意のみを適用する。これにより推論時のKVキャッシュ(各トークンの計算結果を保持するメモリ領域)が定数量に抑えられ、長い音声でも一定のメモリ使用量で動作する。 ファインチューニング時の安定化には、最初は広い窓から徐々に窓サイズを縮小するカリキュラム学習を採用。さらに、フル注意を用いる教師モデルから生徒モデル(WAND)への知識蒸留を行い、データ効率よく高品質な合成を回復する。 3種の最新AR-TTSモデルで評価した結果、元のモデルと同等の品質を維持しつつ最大66.2%のKVキャッシュ削減と推論速度の向上を達成。長文読み上げや低メモリ環境での実用展開に直接的な意義を持ち、エッジデバイスへの音声合成モデル搭載を現実的にする成果といえる。