3D生成
要約済み 2
-
hf-papers 5時間前 5NVIDIA、単一画像から探索可能3D世界を生成するLyra 2.0を発表Lyra 2.0: Explorable Generative 3D Worlds
NVIDIAが1枚の画像から大規模な探索可能3Dシーンを生成するフレームワーク「Lyra 2.0」を公開した。 空間的忘却と時間的ドリフトを解消する2つの新機構により、一貫性の高い3D空間生成を実現。 生成結果を3DGSやメッシュに変換できロボットシミュレーションや仮想環境構築への応用が期待される。
解説 Lyra 2.0はNVIDIAが提案する、1枚の画像から大規模な探索可能3D世界を生成するフレームワーク。従来の自己回帰的な動画生成が抱える2つの根本課題に対処する。①空間的忘却(Spatial Forgetting):カメラが移動してコンテキスト窓外に出た領域を再訪した際に不整合が生じる問題を、フレームごとの3Dキャッシュを用いた幾何学的検索と正準座標ワーピングによる密対応付けで解決。RGB画像ではなく正準座標を与えることで生成モデルの外観合成能力を損なわない設計が特徴。②時間的ドリフト(Temporal Drifting):自己回帰生成で誤差が累積する問題を、訓練時に自モデルの劣化出力を条件付けに使う自己拡張(Self-Augmentation)で解決。実験ではGEN3C・CaM・VMem・SPMem・Yume-1.5・HY-WorldPlayと比較し、DL3DV・Tanks-and-Temples両データセットでSSIM・LPIPS・FID・主観品質・スタイル一貫性・カメラ制御精度のほぼ全指標で最高性能を達成。さらにDMD蒸留により推論を35ステップから4ステップに圧縮し約13倍の高速化も実現。生成された3DシーンはNVIDIA Isaac Simに直接インポートでき、ロボットナビゲーション等の体現AIへの実用性も示している。 -
hf-papers 1日前 4自己回帰モデルSATO、プロ品質3Dメッシュ生成で既存手法を圧倒Strips as Tokens: Artist Mesh Generation with Native UV Segmentation
研究チームが三角形ストリップ着想のトークン化で3Dメッシュを自己回帰生成するモデル「SATO」を発表。 三角・四角メッシュの統一生成とUVチャート分割を単一モデルで同時予測し、DeepMeshやBPTを主要指標で大幅に上回る。 プロ3Dアーティスト評価でも首位を獲得し、ゲーム・映像制作の3D制作ワークフロー自動化に道を開く。
解説 SATOは、3Dグラフィクスの古典的手法「トライアングルストリップ」をトークン化の基本単位として採用した自己回帰Transformerフレームワーク。従来の頂点座標ベース手法(DeepMesh、BPTなど)は長いシーケンスを要し、エッジフローの整合性も失われがちだった。SATOはメッシュのトポロジーをジッパー状に連鎖した「ストリップ」に変換し、ストライドパラメータ(δ=1で三角、δ=2で四角)を切り替えるだけで同一モデルが両メッシュタイプを生成できる点が革新的。さらに、ボキャブラリー拡張によりUVアイランドの境界トークンを語彙に直接組み込み、ジオメトリ生成と同時にUV分割マップを予測する世界初の自己回帰手法を実現した。実験ではMeshAnythingV2比でF1スコア0.807対0.361と倍以上の精度向上を達成。25名のプロ3Dアーティストによるユーザースタディでも最高評価を獲得。ゲーム・映像制作向けの高品質アセット自動生成パイプラインへの応用が期待される。