要約
グローバル潜在トークンを活用したフィードフォワード型3DGSフレームワーク「GlobalSplat」が発表された。 固定16Kガウシアンで冗長性99%超削減、PSNR 28.5・推論78ms・ディスク4MBという高効率を実現。 視点数に依存しないコンパクト表現により、3Dシーン再構成のリアルタイム活用が現実的な射程に入る。
公式ソースだけを集めたAI最前線(日本語要約)
GlobalSplat: Efficient Feed-Forward 3D Gaussian Splatting via Global Scene Tokens
グローバル潜在トークンを活用したフィードフォワード型3DGSフレームワーク「GlobalSplat」が発表された。 固定16Kガウシアンで冗長性99%超削減、PSNR 28.5・推論78ms・ディスク4MBという高効率を実現。 視点数に依存しないコンパクト表現により、3Dシーン再構成のリアルタイム活用が現実的な射程に入る。
GlobalSplatは「先にアライメント、後でデコード(Align First, Decode Later)」を原則とするフィードフォワード3D Gaussian Splattingフレームワークである。従来のpixelSplat・MVSplat・DepthSplat等は視点ごとにピクセル整合したプリミティブを生成するため、入力視点数の増加とともにガウシアン数が数十万〜数百万に膨張する問題があった。提案手法は固定サイズのグローバル潜在シーントークン(2048個)に全視点情報をクロスアテンションで集約してから3Dガウシアンをデコードする。幾何・外観を分離したデュアルブランチエンコーダと粗から細への段階的カリキュラム学習により表現の肥大化を防ぐ。RealEstate10K(24視点)でPSNR 28.5を達成しつつ、競合のZpressor(393Kガウシアン・3.70GB・194ms・134MB)と比較し16Kガウシアン・1.79GB・78ms・3.8MBと大幅に効率化。同時期の類似研究C3Gと比べ画質でも明確に上回る。ACIDへのゼロショット転移でも競争力ある性能を示す。