ビデオ生成
要約済み 2
-
hf-papers 5時間前 5NVIDIA、単一画像から探索可能3D世界を生成するLyra 2.0を発表Lyra 2.0: Explorable Generative 3D Worlds
NVIDIAが1枚の画像から大規模な探索可能3Dシーンを生成するフレームワーク「Lyra 2.0」を公開した。 空間的忘却と時間的ドリフトを解消する2つの新機構により、一貫性の高い3D空間生成を実現。 生成結果を3DGSやメッシュに変換できロボットシミュレーションや仮想環境構築への応用が期待される。
解説 Lyra 2.0はNVIDIAが提案する、1枚の画像から大規模な探索可能3D世界を生成するフレームワーク。従来の自己回帰的な動画生成が抱える2つの根本課題に対処する。①空間的忘却(Spatial Forgetting):カメラが移動してコンテキスト窓外に出た領域を再訪した際に不整合が生じる問題を、フレームごとの3Dキャッシュを用いた幾何学的検索と正準座標ワーピングによる密対応付けで解決。RGB画像ではなく正準座標を与えることで生成モデルの外観合成能力を損なわない設計が特徴。②時間的ドリフト(Temporal Drifting):自己回帰生成で誤差が累積する問題を、訓練時に自モデルの劣化出力を条件付けに使う自己拡張(Self-Augmentation)で解決。実験ではGEN3C・CaM・VMem・SPMem・Yume-1.5・HY-WorldPlayと比較し、DL3DV・Tanks-and-Temples両データセットでSSIM・LPIPS・FID・主観品質・スタイル一貫性・カメラ制御精度のほぼ全指標で最高性能を達成。さらにDMD蒸留により推論を35ステップから4ステップに圧縮し約13倍の高速化も実現。生成された3DシーンはNVIDIA Isaac Simに直接インポートでき、ロボットナビゲーション等の体現AIへの実用性も示している。 -
hf-blog 3日前 3Waypoint-1.5公開、消費者GPUでリアル世界生成を実現Waypoint-1.5: Higher-Fidelity Interactive Worlds for Everyday GPUs
World Labsがリアルタイム映像世界モデル「Waypoint-1.5」を公開した。 720p/60FPS対応の2層構成で前版比約100倍のデータ学習により環境一貫性が大幅向上。 RTX 3090からApple Siliconまで幅広く対応し、ゲーム・シミュレーション分野への普及が加速する見込み。
解説 Overworldが開発したリアルタイム映像世界モデルの改良版。従来データセンター規模のGPUが必要だったインタラクティブ世界生成を、RTX 3090やゲーミングノートPCなど消費者向けハードウェアで実現した点が注目に値する。Sora等の動画生成AIとは異なり、ユーザー操作にリアルタイムで応答する「探索可能な世界」を志向しており、ゲームやシミュレーション分野への応用が期待される。HuggingFaceでモデル公開済み。