シーン再構成
要約済み 2
-
hf-papers 3時間前 4GlobalSplat、3DGS冗長性を99%超削減する新手法を発表GlobalSplat: Efficient Feed-Forward 3D Gaussian Splatting via Global Scene Tokens
グローバル潜在トークンを活用したフィードフォワード型3DGSフレームワーク「GlobalSplat」が発表された。 固定16Kガウシアンで冗長性99%超削減、PSNR 28.5・推論78ms・ディスク4MBという高効率を実現。 視点数に依存しないコンパクト表現により、3Dシーン再構成のリアルタイム活用が現実的な射程に入る。
解説 GlobalSplatは「先にアライメント、後でデコード(Align First, Decode Later)」を原則とするフィードフォワード3D Gaussian Splattingフレームワークである。従来のpixelSplat・MVSplat・DepthSplat等は視点ごとにピクセル整合したプリミティブを生成するため、入力視点数の増加とともにガウシアン数が数十万〜数百万に膨張する問題があった。提案手法は固定サイズのグローバル潜在シーントークン(2048個)に全視点情報をクロスアテンションで集約してから3Dガウシアンをデコードする。幾何・外観を分離したデュアルブランチエンコーダと粗から細への段階的カリキュラム学習により表現の肥大化を防ぐ。RealEstate10K(24視点)でPSNR 28.5を達成しつつ、競合のZpressor(393Kガウシアン・3.70GB・194ms・134MB)と比較し16Kガウシアン・1.79GB・78ms・3.8MBと大幅に効率化。同時期の類似研究C3Gと比べ画質でも明確に上回る。ACIDへのゼロショット転移でも競争力ある性能を示す。 -
hf-papers 6時間前 4テンセント、3D世界を丸ごと再構成・生成するAIモデルを発表HY-World 2.0: A Multi-Modal World Model for Reconstructing, Generating, and Simulating 3D Worlds
テンセントが静止画・動画から3Dシーンの再構成・生成・物理シミュレーションを一括処理するマルチモーダル基盤モデル「HY-World 2.0」を発表。 単一モデルで三種の3D処理タスクを統合した汎用アーキテクチャを採用し、実世界シミュレーション精度を大幅に向上。 ロボティクス・自動運転・メタバースなど3D空間を扱うAIアプリケーション開発の加速が期待される。
解説 HY-World 2.0はTencent(腾讯混元チーム)が開発したマルチモーダル3Dワールドモデルで、「再構成・生成・シミュレーション」の三機能を単一フレームワークに統合した点が最大の特徴。既存手法はこれらを独立したタスクとして扱うことが多く、汎用性に欠けていた。本モデルは画像・動画・テキスト等の多様な入力から3Dシーンを再構成し、新たな視点での合成(Novel View Synthesis)や、物理法則に基づく動的シミュレーションまでを一貫して行う。アーキテクチャ面では拡散モデル(Diffusion Model)ベースの生成バックボーンと、3Dガウシアン表現を組み合わせ、高品質な幾何・外観の両立を図っている。実験ではシーン再構成精度(PSNR/SSIM)、生成品質(FVD・FID相当指標)、シミュレーション忠実度の複数軸で従来のNeRF系・拡散ビデオ系手法を上回ることが示されている。自動運転・ロボティクス・VR/ARなどリアルな3D環境が求められる応用分野での実用性が高く、一つのモデルで多用途に対応できる基盤モデルとしての位置付けが特徴。v1.0からの主な改善点は生成解像度の向上と長時間シミュレーション安定性の強化と見られる。