カメラ制御動画生成にVLMの空間推論を転用、25.7%改善

hf-papers 2026-04-13 12:24 ★4

カメラ制御動画生成にVLMの空間推論を転用、25.7%改善

CT-1: Vision-Language-Camera Models Transfer Spatial Reasoning Knowledge to Camera-Controllable Video Generation

動画生成カメラ制御ビジョン言語モデル空間推論拡散モデル

要約

研究チームがビジョン言語モデルの空間推論能力をカメラ制御動画生成へ応用するCT-1を発表。ウェーブレット正則化損失と4700万フレーム超のCT-200Kデータセットで従来比25.7%性能向上を達成。複雑なカメラ軌跡生成の精度向上により、映像制作・シミュレーション分野への応用拡大が期待される。

解説・分析

CT-1（Camera Transformer 1）は、カメラの動きを柔軟かつ物理的に自然に制御した動画生成を実現する新モデルです。既存手法の課題として、テキストプロンプトからの曖昧なカメラ制御や、手動でのカメラ軌跡パラメータ入力の煩雑さがありました。CT-1はVision-Language Module（画像と言語を統合処理するモジュール）とDiffusion Transformer（拡散モデルベースの生成器）を組み合わせ、言語・視覚情報から正確なカメラ軌跡を推定します。特筆すべきはウェーブレット変換を使った正則化損失で、周波数領域でカメラ動作の複雑な分布を効率よく学習できる点です。さらに、4700万フレーム以上を含む大規模データセットCT-200Kを独自に構築し、学習基盤を強化しています。実験ではカメラ制御精度において従来手法を25.7%上回り、映画・VR・シミュレーション等の自動化パイプラインへの応用が期待されます。GPT-4oやGeminiのような汎用VLMとは異なり、カメラ軌跡推定に特化した設計が高精度を実現しています。

深掘り分析

🔒

この分析はProプラン限定です

Proプランに登録 →

原文を読む → https://huggingface.co/papers/2604.09201

← 一覧に戻る

AIフロントライン