要約
疎な点軌跡の逐次推論で未来シーン動態を予測する新手法「Myriad」が発表された。 自己回帰拡散モデル(フローマッチング)により多様な未来を高速サンプリングし、動画生成モデル比2200倍のスループットを達成。 密なピクセル生成を不要にした本手法は、ロボット制御や自動運転など実時間予測が求められる分野への応用が期待される。
公式ソースだけを集めたAIニュースを日本語要約でお届け
Envisioning the Future, One Step at a Time
疎な点軌跡の逐次推論で未来シーン動態を予測する新手法「Myriad」が発表された。 自己回帰拡散モデル(フローマッチング)により多様な未来を高速サンプリングし、動画生成モデル比2200倍のスループットを達成。 密なピクセル生成を不要にした本手法は、ロボット制御や自動運転など実時間予測が求められる分野への応用が期待される。
本論文はシーンの未来動態予測において、密な動画フレームを生成するのではなく、ユーザー定義の疎な点群の軌跡分布を逐次推論するアプローチを提案する。提案モデル「Myriad」(665M)は、フローマッチングヘッドと高速推論ブロック(Fused Attention)を組み合わせた自己回帰Transformerで、KVキャッシュを活用し1分間に2200サンプルを生成できる。これは競合の動画生成モデル(MAGI-1・Wan2.2等、1〜14B規模)の数千倍高速であり、同一GPU予算内では精度も上回る。また、多様な野生動画95本からなる評価基準「OWM」を新設し、Best-of-5minという計算予算固定の公正な比較を実現。ビリヤード計画タスクでは78%の精度(動画ベース16%)を達成し、疎な表現が不確実性下の行動選択にも有効であることを示す。密な外観生成を省くことでパラメータと計算を動き推論に集中できる点が本質的な貢献である。