世界モデル
要約済み 4
-
hf-papers 1日前 5868時間の乳幼児映像から汎用視覚AIが誕生Zero-shot World Models Are Developmentally Efficient Learners
研究者らが子供の一人称視点映像868時間のみで訓練した自己教師あり世界モデルを発表。 タスク固有の学習なしに光学フロー・深度推定・物体分割・直感物理を高精度で解く。 人間の認知発達と一致する学習軌跡が判明し、AGIへの新たなアプローチとして注目される。
解説 本論文はZero-shot Visual World Model(ZWM)と呼ばれる自己教師ありニューラルネットワークを提案する。学習に用いるのは、乳幼児が装着したヘッドカメラで撮影されたBabyViewデータセットの約868時間のみ。核心となる設計は「Sparse Temporally-Factored Prediction(疎な時間分解予測)」と呼ばれる仕組みで、2フレーム間で第2フレームのわずか10%のパッチのみを手がかりに全体を予測させることで、外観と動きを暗黙的に分離する。タスク実行は「最小摂動による近似因果推論」で行い、入力に微小変化を与えた際の予測差分から光学フロー・深度・物体セグメンテーション・直感物理を一つのモデルでゼロショット抽出する。実験では深度推定でGemini-1.5・GPT-4oといった大規模VLMを上回り(UniQA-3D精度90%超)、物体分割でMAsk2Formerと同水準を達成。さらにモデルの学習進行曲線が乳幼児の視覚発達段階と対応し、fMRI・電気生理データとの神経アライメントも検証された。タスク固有モデル群を単一モデルで代替できる点は実用上も大きな意義を持つ。 -
hf-papers 1日前 4動画生成比2200倍高速な未来予測AI「Myriad」登場Envisioning the Future, One Step at a Time
疎な点軌跡の逐次推論で未来シーン動態を予測する新手法「Myriad」が発表された。 自己回帰拡散モデル(フローマッチング)により多様な未来を高速サンプリングし、動画生成モデル比2200倍のスループットを達成。 密なピクセル生成を不要にした本手法は、ロボット制御や自動運転など実時間予測が求められる分野への応用が期待される。
解説 本論文はシーンの未来動態予測において、密な動画フレームを生成するのではなく、ユーザー定義の疎な点群の軌跡分布を逐次推論するアプローチを提案する。提案モデル「Myriad」(665M)は、フローマッチングヘッドと高速推論ブロック(Fused Attention)を組み合わせた自己回帰Transformerで、KVキャッシュを活用し1分間に2200サンプルを生成できる。これは競合の動画生成モデル(MAGI-1・Wan2.2等、1〜14B規模)の数千倍高速であり、同一GPU予算内では精度も上回る。また、多様な野生動画95本からなる評価基準「OWM」を新設し、Best-of-5minという計算予算固定の公正な比較を実現。ビリヤード計画タスクでは78%の精度(動画ベース16%)を達成し、疎な表現が不確実性下の行動選択にも有効であることを示す。密な外観生成を省くことでパラメータと計算を動き推論に集中できる点が本質的な貢献である。 -
hf-papers 1日前 4Matrix-Game 3.0、720p/40FPSのリアルタイム世界モデルを実現Matrix-Game 3.0: Real-Time and Streaming Interactive World Model with Long-Horizon Memory
研究チームがリアルタイム・ストリーミング対応のインタラクティブ世界モデル「Matrix-Game 3.0」を発表。 720p・40FPSの動画生成を5Bモデルで達成し、量子化・VAEプルーニング・蒸留を組み合わせた高速推論を実現。 ゲームや自律エージェントの環境シミュレーションに向け、長期空間一貫性の課題を大きく前進させた。
解説 Matrix-Game 3.0は、ゲームや仮想環境向けのインタラクティブ世界モデルで、720p解像度・40FPSというリアルタイム生成と、数分間にわたる長期記憶の両立を初めて実現した。 【提案手法の仕組み】 中核となるのは3つの技術的革新。①カメラ対応メモリ検索:カメラの姿勢と視野の重なりに基づいてメモリを選択し、以前に訪問した場所を再訪した際に一貫した映像を生成する。②誤差バッファ機構:自己回帰生成時の累積誤差(モデル出力と正解の残差)をバッファに蓄積し、学習時に過去フレームへ意図的に注入することで、エラーに頑健なモデルを訓練する。③マルチセグメントDMD蒸留(Distribution Matching Distillation):学習と推論のアーキテクチャを統一した双方向DiT(Diffusion Transformer)で、複数セグメントを自己生成しながら蒸留することで推論速度を大幅に向上させる。 【高速化技術】 INT8量子化、VAEデコーダのプルーニング(50%で2.6倍・75%で5.2倍高速化)、GPUベースのメモリ検索を組み合わせ、8+1 GPU構成で40FPS@720pを達成。さらに28Bの大規模MoEモデルへのスケールアップも実証。 【既存手法との比較】 Genie-3(~24FPS・非公開)やHY-Gamecraft-2(512p・非公開)と比べ、解像度・速度・記憶能力・オープンソース性のすべてで優位。 【実用上の意義】 ゲームAI、VR/ARシミュレーション、ロボット訓練環境など、リアルタイムかつ長期整合性が求められるインタラクティブ映像生成の実用化に向けた重要なマイルストーンとなる。 -
hf-blog 3日前 3Waypoint-1.5公開、消費者GPUでリアル世界生成を実現Waypoint-1.5: Higher-Fidelity Interactive Worlds for Everyday GPUs
World Labsがリアルタイム映像世界モデル「Waypoint-1.5」を公開した。 720p/60FPS対応の2層構成で前版比約100倍のデータ学習により環境一貫性が大幅向上。 RTX 3090からApple Siliconまで幅広く対応し、ゲーム・シミュレーション分野への普及が加速する見込み。
解説 Overworldが開発したリアルタイム映像世界モデルの改良版。従来データセンター規模のGPUが必要だったインタラクティブ世界生成を、RTX 3090やゲーミングノートPCなど消費者向けハードウェアで実現した点が注目に値する。Sora等の動画生成AIとは異なり、ユーザー操作にリアルタイムで応答する「探索可能な世界」を志向しており、ゲームやシミュレーション分野への応用が期待される。HuggingFaceでモデル公開済み。