リアルタイム推論
要約済み 1
-
hf-papers 1日前 4Matrix-Game 3.0、720p/40FPSのリアルタイム世界モデルを実現Matrix-Game 3.0: Real-Time and Streaming Interactive World Model with Long-Horizon Memory
研究チームがリアルタイム・ストリーミング対応のインタラクティブ世界モデル「Matrix-Game 3.0」を発表。 720p・40FPSの動画生成を5Bモデルで達成し、量子化・VAEプルーニング・蒸留を組み合わせた高速推論を実現。 ゲームや自律エージェントの環境シミュレーションに向け、長期空間一貫性の課題を大きく前進させた。
解説 Matrix-Game 3.0は、ゲームや仮想環境向けのインタラクティブ世界モデルで、720p解像度・40FPSというリアルタイム生成と、数分間にわたる長期記憶の両立を初めて実現した。 【提案手法の仕組み】 中核となるのは3つの技術的革新。①カメラ対応メモリ検索:カメラの姿勢と視野の重なりに基づいてメモリを選択し、以前に訪問した場所を再訪した際に一貫した映像を生成する。②誤差バッファ機構:自己回帰生成時の累積誤差(モデル出力と正解の残差)をバッファに蓄積し、学習時に過去フレームへ意図的に注入することで、エラーに頑健なモデルを訓練する。③マルチセグメントDMD蒸留(Distribution Matching Distillation):学習と推論のアーキテクチャを統一した双方向DiT(Diffusion Transformer)で、複数セグメントを自己生成しながら蒸留することで推論速度を大幅に向上させる。 【高速化技術】 INT8量子化、VAEデコーダのプルーニング(50%で2.6倍・75%で5.2倍高速化)、GPUベースのメモリ検索を組み合わせ、8+1 GPU構成で40FPS@720pを達成。さらに28Bの大規模MoEモデルへのスケールアップも実証。 【既存手法との比較】 Genie-3(~24FPS・非公開)やHY-Gamecraft-2(512p・非公開)と比べ、解像度・速度・記憶能力・オープンソース性のすべてで優位。 【実用上の意義】 ゲームAI、VR/ARシミュレーション、ロボット訓練環境など、リアルタイムかつ長期整合性が求められるインタラクティブ映像生成の実用化に向けた重要なマイルストーンとなる。