動画生成

hf-papers 5時間前 4

VideoFlexTok: Flexible-Length Coarse-to-Fine Video Tokenization

研究チームが可変長トークンによる粗から細への階層的動画トークン化手法「VideoFlexTok」を発表。 10秒81フレームの動画を672トークンで生成でき、従来比8分の1のトークン数・5倍小さなモデルで同等品質を実現。動画生成モデルの大幅な効率化が可能となり、低コストでの高品質動画生成への道を開く。

解説 VideoFlexTokは、動画を固定サイズの3D格子トークンではなく、粗から細への可変長トークン列で表現する新しいビデオトークナイザーである。時間因果アテンションを持つエンコーダが空間時間VAEの潜在表現を処理し、FSQ量子化（コードブックサイズ6.4万）でレジスタトークンを離散化する。Nested Dropout（後半トークンをランダムにマスク）により、先頭トークンに意味・動作情報が、後続トークンに細粒度の詳細が自然と集約される階層構造が創発する。デコーダはDiffusion Transformer（DiT）ベースで、DINOv2特徴を蒸留するREPA損失と整流フロー損失を組み合わせる。下流タスクではGPT型の自己回帰モデルでクラス・テキスト条件付き動画生成を行う。実験では、同等品質を達成するモデルサイズが従来比5〜10倍削減（1.1B対5.2B）、学習トークン数も5〜10倍削減された。10秒動画の生成に必要なトークン数は標準3D格子手法の8分の1（672対5,376）に圧縮された。固定サイズ手法（LARP等）と比較しFVDで競合または上回る結果を示し、大規模化時の計算効率は1桁以上の改善を達成している。

動画生成トークン化効率化拡散モデル自己回帰モデル

hf-papers 8時間前 4

新AR手法でImageNet画像生成の世界最高精度を更新

Generative Refinement Networks for Visual Synthesis

研究チームが精錬型自己回帰ネットワーク（GRN）を発表、ImageNet C2IでgFID 1.81の新SOTAを達成。 HBQ量子化で連続表現と同等の再構成品質を実現し、全体的精錬機構で誤差蓄積を防ぐ新アーキテクチャ。 2Bパラメータで画像・動画生成ともに既存手法を凌駕し、生成AI基盤モデル研究に新たな指針を示す。

解説 GRN（Generative Refinement Networks）はByteDanceが提案する視覚生成の新パラダイムで、拡散モデルとAR（自己回帰）モデルそれぞれの欠点を同時に克服する。核心技術のHBQ（階層的二値量子化）はVAEの連続特徴をM回の二値決定木で離散化し、量子化誤差が2^(-M)で指数減衰するため理論上ほぼ無損失を達成。ImageNetでは連続VAE（rFID 0.87）を上回るrFID 0.56を記録した。生成フェーズでは「全体的精錬機構」を採用。ランダムトークンマップを出発点として、毎ステップで全トークンを予測・更新することで「塗りつぶし・精錬・消去」を一体化。従来ARモデルが抱える誤差蓄積（一度確定したトークンを後から修正できない問題）を根本解決している。アブレーションではマスクベース手法（gFID 18.13）に対しGRNは3.63を達成し精錬機構の効果を定量的に示す。さらにエントロピー誘導型の複雑度適応サンプリングにより、単純な画像には少ないステップ、複雑な画像には多いステップを動的割当て、品質を維持しつつ計算コストを削減する。比較実験では2BモデルでSD3 Medium（GenEval 0.62）やInfinity（0.71）を上回るGenEval 0.76を達成し、T2VではCogVideoX-5B（5B）を2Bで凌駕する。

画像生成動画生成自己回帰モデル離散トークン化適応ステップ生成

hf-papers 1日前 3

学習不要で動画の時間制御を実現するPrompt Relay登場

Prompt Relay: Inference-Time Temporal Control for Multi-Event Video Generation

複数イベントを時間的に正確に配置できる動画生成手法「Prompt Relay」が発表された。クロスアテンションにペナルティ項を追加するだけで、追加学習・構造変更・余分な計算コストが不要。既存の動画生成モデルに即適用でき、時間整合性と映像品質の向上が期待される。

解説動画拡散モデルは単一イベントの生成には優れるが、複数イベントを時系列で制御する仕組みを持たない。例えば「まず牛乳を注ぎ、次にシリアルを混ぜる」という2段階のプロンプトを与えても、両概念が時間軸全体に滲み出る「セマンティック・エンタングルメント」が生じる。Prompt Relayはこの問題をクロスアテンションのロジットにペナルティ項C(Q,K)を加算することで解決する。クエリトークンが属する時間区間から離れたプロンプトへのアテンションを、ガウシアン型の減衰関数（Boundary-Attention Decay）で滑らかに抑制する。ハードマスクのような急激な切り替えを避け、セグメント境界付近では隣接プロンプトを段階的に共活性化することで自然なトランジションを実現する。Wan2.2-T2V-A14B上で実装し、Sora Storyboard・Veo 3.1・Kling 2.6と人間評価（30名・20シナリオ）で比較。時間的プロンプト整合性と遷移自然さでこれらを上回り、バックボーンWan 2.2単体より映像品質も向上した。ただし視覚的忠実度の上限はバックボーン性能に依存するため、Kling 2.6やVeo 3.1の絶対的映像品質には及ばない。追加学習・アーキテクチャ変更・計算コスト増なしに既存モデルへ即適用できる点が最大の実用的意義である。

動画生成アテンション制御時間的制御マルチイベント学習不要

hf-papers 1日前 4

人物動画生成AI「OmniShow」、テキスト・音声・ポーズを同時制御

OmniShow: Unifying Multimodal Conditions for Human-Object Interaction Video Generation

テキスト・参照画像・音声・ポーズを同時に制御できる人物動画生成フレームワーク「OmniShow」が発表された。チャネル結合による条件注入とゲート付き局所音声アテンション機構で高品質な動画生成を実現。専用ベンチマーク「HOIVG-Bench」で既存手法を上回るSOTA性能を達成し、動画生成技術の新基準を示した。

解説 OmniShowは、人物と物体のインタラクション動画を生成する「HOIVG（Human-Object Interaction Video Generation）」タスクに特化したエンドツーエンドフレームワークである。既存手法は参照画像のみ対応、あるいは音声のみ対応と各条件に特化していたが、本手法はテキスト・参照画像（人物・物体）・音声・ポーズ骨格の4条件を同時制御できる初のフレームワークである。主要技術は3つ。①「Unified Channel-wise Conditioning」：VAEでエンコードしたポーズ映像と参照画像をチャネル次元で連結し、既存の拡散モデルの入力構造を変えずに効率的に条件を注入する。②「Gated Local-Context Attention」：Wav2Vec 2.0で抽出した音声特徴をスライディングウィンドウで文脈集約し、マスク付きアテンションで各フレームと対応音声のみを関連付ける。学習可能ゲートベクトルで初期学習を安定化し、パラメータ増加を約2.5%（0.3B）に抑える。③「Decoupled-Then-Joint Training」：R2VとA2Vを別々に学習後、重み補間でモデルを結合し段階的に統合することで、データ不足を克服しながら各モダリティの性能を維持する。 HunyuanCustom・HuMo・VACE・Phantomといった最新SOTAと比較した定量実験では、12.3Bという最小パラメータで音声同期スコア（Sync-C: 8.612）・参照一貫性・映像品質のいずれも最高水準を達成。Eコマース動画や短動画制作への実用的応用が期待される。

動画生成マルチモーダル人物-物体インタラクション拡散モデル音声同期

hf-papers 1日前 4

カメラ制御動画生成にVLMの空間推論を転用、25.7%改善

CT-1: Vision-Language-Camera Models Transfer Spatial Reasoning Knowledge to Camera-Controllable Video Generation

研究チームがビジョン言語モデルの空間推論能力をカメラ制御動画生成へ応用するCT-1を発表。ウェーブレット正則化損失と4700万フレーム超のCT-200Kデータセットで従来比25.7%性能向上を達成。複雑なカメラ軌跡生成の精度向上により、映像制作・シミュレーション分野への応用拡大が期待される。

解説 CT-1（Camera Transformer 1）は、カメラの動きを柔軟かつ物理的に自然に制御した動画生成を実現する新モデルです。既存手法の課題として、テキストプロンプトからの曖昧なカメラ制御や、手動でのカメラ軌跡パラメータ入力の煩雑さがありました。CT-1はVision-Language Module（画像と言語を統合処理するモジュール）とDiffusion Transformer（拡散モデルベースの生成器）を組み合わせ、言語・視覚情報から正確なカメラ軌跡を推定します。特筆すべきはウェーブレット変換を使った正則化損失で、周波数領域でカメラ動作の複雑な分布を効率よく学習できる点です。さらに、4700万フレーム以上を含む大規模データセットCT-200Kを独自に構築し、学習基盤を強化しています。実験ではカメラ制御精度において従来手法を25.7%上回り、映画・VR・シミュレーション等の自動化パイプラインへの応用が期待されます。GPT-4oやGeminiのような汎用VLMとは異なり、カメラ軌跡推定に特化した設計が高精度を実現しています。

動画生成カメラ制御ビジョン言語モデル空間推論拡散モデル

hf-papers 1日前 4

ループ型Transformerで視覚生成を1/4のパラメータで実現

ELT: Elastic Looped Transformers for Visual Generation

研究チームが「ELT」を発表——ループ構造と自己蒸留を組み合わせた画像・動画生成モデル。パラメータ数を75%削減しつつImageNetでFID 2.0、UCF-101でFVD 72.8の高精度を達成。推論時にループ数を動的調整できる「Any-Time推論」により、計算資源に合わせた柔軟な運用が可能に。

解説 ELT（Elastic Looped Transformers）は、重みを共有したトランスフォーマーブロックをL回繰り返す「N×L」構造を採用し、パラメータ数をN層分に抑えながら深いネットワークと同等の表現力を実現する視覚生成モデルです。通常のTransformerが独立した深い層スタックを必要とするのに対し、ELTは物理モデルサイズと計算深度を分離します。学習の核心は「Intra-Loop Self Distillation（ILSD）」で、最大ループ数の出力を内部教師とし、途中ループの出力を生徒として確率的に蒸留します。これにより途中ループでも高品質な出力が得られ、推論時にループ数を自由に変更する「Any-Time推論」が可能になります。実験ではMaskGIT-XL（446M）の1/4以下の111Mパラメータでも同等のFID 2.0を達成。動画生成ではMAGVIT-L（306M）を76MパラメータでFVD 72.8と上回りました。TPU上の推論スループットは最大3.5倍向上し、学習収束も最大2倍高速化。エッジデバイスから高品質クラウド生成まで単一モデルで対応できる柔軟性が実用上の強みです。

画像生成動画生成パラメータ効率化弾性推論自己蒸留

hf-papers 1日前 4

Matrix-Game 3.0、720p/40FPSのリアルタイム世界モデルを実現

Matrix-Game 3.0: Real-Time and Streaming Interactive World Model with Long-Horizon Memory

研究チームがリアルタイム・ストリーミング対応のインタラクティブ世界モデル「Matrix-Game 3.0」を発表。 720p・40FPSの動画生成を5Bモデルで達成し、量子化・VAEプルーニング・蒸留を組み合わせた高速推論を実現。ゲームや自律エージェントの環境シミュレーションに向け、長期空間一貫性の課題を大きく前進させた。

解説 Matrix-Game 3.0は、ゲームや仮想環境向けのインタラクティブ世界モデルで、720p解像度・40FPSというリアルタイム生成と、数分間にわたる長期記憶の両立を初めて実現した。【提案手法の仕組み】中核となるのは3つの技術的革新。①カメラ対応メモリ検索：カメラの姿勢と視野の重なりに基づいてメモリを選択し、以前に訪問した場所を再訪した際に一貫した映像を生成する。②誤差バッファ機構：自己回帰生成時の累積誤差（モデル出力と正解の残差）をバッファに蓄積し、学習時に過去フレームへ意図的に注入することで、エラーに頑健なモデルを訓練する。③マルチセグメントDMD蒸留（Distribution Matching Distillation）：学習と推論のアーキテクチャを統一した双方向DiT（Diffusion Transformer）で、複数セグメントを自己生成しながら蒸留することで推論速度を大幅に向上させる。【高速化技術】 INT8量子化、VAEデコーダのプルーニング（50%で2.6倍・75%で5.2倍高速化）、GPUベースのメモリ検索を組み合わせ、8+1 GPU構成で40FPS@720pを達成。さらに28Bの大規模MoEモデルへのスケールアップも実証。【既存手法との比較】 Genie-3（~24FPS・非公開）やHY-Gamecraft-2（512p・非公開）と比べ、解像度・速度・記憶能力・オープンソース性のすべてで優位。【実用上の意義】ゲームAI、VR/ARシミュレーション、ロボット訓練環境など、リアルタイムかつ長期整合性が求められるインタラクティブ映像生成の実用化に向けた重要なマイルストーンとなる。

世界モデル動画生成リアルタイム推論拡散モデルゲームAI

google-blog-ai 15日前 3

GoogleがVeo 3.1 Lite公開、低コストで動画生成が可能に

Build with Veo 3.1 Lite, our most cost-effective video generation model

Googleが動画生成モデル「Veo 3.1 Lite」を開発者向けに正式公開した。 Veoシリーズ最高のコスト効率を誇り、アプリへの動画生成機能組み込みを低コストで実現。参入障壁を下げることでAI動画生成技術の普及加速が期待される。

動画生成 Google Veo 生成AI API

openai-news 23日前 2

OpenAI、Sora 2に安全機能を標準搭載と発表

Creating with Sora Safely

OpenAIは動画生成モデル「Sora 2」とSoraアプリに、安全対策を設計段階から組み込んだと発表した。動画生成特有のリスクに対応した複数の保護機能を実装し、ソーシャル創作用途にも対応。 AI生成動画の普及に伴う安全性確保の取り組みとして、業界標準への影響も注目される。

OpenAI Sora 安全性動画生成

stability-blog 11ヶ月前 4

Stability AI、SV4D 2.0公開——単一動画から4D生成が進化

Stable Video 4D 2.0: New Upgrades for High-Fidelity Novel-Views and 4D Generation from a Single Video

Stability AIが単一動画から高品質なNovel View合成と4Dコンテンツ生成を行うSV4D 2.0を正式発表。前バージョン比で映像の忠実度・時間的一貫性が大幅に向上し、より自然な3D動画生成を実現。ゲーム・映像制作・XR分野での活用が広がると期待され、生成AI映像技術の新たな水準を示す。

解説 Stability AIが「Stable Video 4D 2.0（SV4D 2.0）」を発表した。SV4Dは単一の入力動画から、異なる視点（Novel View）の映像と時間軸を含む4次元コンテンツ（3D空間＋時間）を生成するモデルである。2.0では特に高忠実度（High-Fidelity）な出力品質と、フレーム間の時間的整合性（Temporal Consistency）が強化されており、生成された各視点映像がより自然でアーティファクト（不自然な歪みや乱れ）の少ない仕上がりになっている。Novel View Synthesis（新規視点合成）とは、ある角度から撮影した映像をもとに、撮影していない別角度の映像をAIが推定・生成する技術で、従来は静止画での研究が主流だったが、動画への応用が急速に進んでいる。4D生成は3Dオブジェクトの動きまで含めて再現できるため、ゲームアセット作成、映画のVFX、AR/VR向けコンテンツ制作などで大きな労力削減が見込まれる。前世代のSV4Dと比べ品質・速度ともに改善されており、クリエイターや3Dコンテンツ開発者にとって実用的な選択肢となりつつある。

Stability AI 動画生成 4D生成 Novel View Synthesis マルチビュー

stability-blog 1年前 4

Stability AI、3Dカメラ制御で多視点動画を生成するモデル発表

Introducing Stable Virtual Camera: Multi-View Video Generation with 3D Camera Control

Stability AIが単一・複数画像から任意のカメラ軌跡で多視点動画を生成する「Stable Virtual Camera」を発表。 3D空間上でカメラパスを指定し、視点間で一貫した映像を生成できる新技術。ゲーム開発・映像制作・3Dコンテンツ生成のワークフローを大幅に効率化する可能性。

解説 Stability AIが発表した「Stable Virtual Camera」は、1枚または少数の入力画像から、3Dカメラ軌跡を指定して複数視点の一貫した動画を生成するモデルです。技術的には動画拡散モデル（Video Diffusion Model）をベースに、カメラのポーズ（位置・方向）を条件として与えることで、Novel View Synthesis（新規視点合成）と動画生成を統合しています。既存技術との大きな違いは、単なる静止画の視点変換ではなく時間方向にも一貫した映像を生成できる点と、ユーザーが直感的に3D空間上のカメラパスを制御できる点です。NeRFや3D Gaussian Splattingのような明示的な3D再構成を必要とせず、拡散モデルの暗黙的な3D理解によって高品質な多視点映像を実現しています。ゲーム開発・バーチャルプロダクション・Eコマース向け商品3D展示など幅広い用途が想定されており、3Dコンテンツ制作の民主化に寄与する重要なリリースといえます。

動画生成 3Dビジョンマルチビュー Stability AI 拡散モデル

要約済み 11