diffusion model
要約済み 1
-
hf-papers 4分前 4意味表現から映像を生成する新フレームワーク「Re2Pix」発表Representations Before Pixels: Semantics-Guided Hierarchical Video Prediction
意味表現を先に予測してから映像を生成する二段階フレームワーク「Re2Pix」が発表された。 DINOv2特徴空間での意味予測と拡散モデルを組み合わせ、学習収束をFID/FVDで最大7倍高速化。 Vista・Cosmos-Predict 2と競合する性能を達成し、動画生成AIの効率化に新たな道筋を示す。
解説 Re2Pixは、自律走行など複雑な動的シーン向けの動画予測フレームワーク。従来手法は将来フレームをVAE潜在空間で直接生成するため、意味構造と外観が混在し時間的セマンティクスの一貫性が損なわれやすかった。本手法はこれを二段階に明示的に分離する。第1段階では凍結したDINOv2(大規模事前学習済み視覚基盤モデル)でフレームから意味特徴を抽出し、マスク付きTransformerで将来フレームの特徴を自己回帰的に予測する。第2段階では予測した意味特徴を条件として拡散Transformer(DiT)がVAE潜在空間で将来フレームを生成し、VAEデコーダで画素空間に復元する。訓練時にはground-truth特徴、推論時には予測特徴を使う分布ずれを解消するため、確率的にチャネルを切り捨てるネステッドドロップアウトと、GT特徴90%・予測特徴10%の混合教師付けを導入。Cityscapes・nuScenes・KITTIでの評価では、REPAやVideoREPAを上回り、VistaとCosmos-Predict 2(大規模インターネットデータで事前学習済み)に匹敵する性能を実現。特に学習効率の大幅改善(7〜14倍)は、意味的な階層構造の明示的活用が拡散モデルの収束を劇的に加速することを示しており、実用上の意義が大きい。