ワールドモデル
要約済み 1
-
hf-papers 6時間前 4テンセント、3D世界を丸ごと再構成・生成するAIモデルを発表HY-World 2.0: A Multi-Modal World Model for Reconstructing, Generating, and Simulating 3D Worlds
テンセントが静止画・動画から3Dシーンの再構成・生成・物理シミュレーションを一括処理するマルチモーダル基盤モデル「HY-World 2.0」を発表。 単一モデルで三種の3D処理タスクを統合した汎用アーキテクチャを採用し、実世界シミュレーション精度を大幅に向上。 ロボティクス・自動運転・メタバースなど3D空間を扱うAIアプリケーション開発の加速が期待される。
解説 HY-World 2.0はTencent(腾讯混元チーム)が開発したマルチモーダル3Dワールドモデルで、「再構成・生成・シミュレーション」の三機能を単一フレームワークに統合した点が最大の特徴。既存手法はこれらを独立したタスクとして扱うことが多く、汎用性に欠けていた。本モデルは画像・動画・テキスト等の多様な入力から3Dシーンを再構成し、新たな視点での合成(Novel View Synthesis)や、物理法則に基づく動的シミュレーションまでを一貫して行う。アーキテクチャ面では拡散モデル(Diffusion Model)ベースの生成バックボーンと、3Dガウシアン表現を組み合わせ、高品質な幾何・外観の両立を図っている。実験ではシーン再構成精度(PSNR/SSIM)、生成品質(FVD・FID相当指標)、シミュレーション忠実度の複数軸で従来のNeRF系・拡散ビデオ系手法を上回ることが示されている。自動運転・ロボティクス・VR/ARなどリアルな3D環境が求められる応用分野での実用性が高く、一つのモデルで多用途に対応できる基盤モデルとしての位置付けが特徴。v1.0からの主な改善点は生成解像度の向上と長時間シミュレーション安定性の強化と見られる。