マルチモーダル統合

1件の記事

要約済み 1

hf-papers 5日前 4
動画生成と理解を単一モデルで統合、Uni-ViGU発表
Uni-ViGU: Towards Unified Video Generation and Understanding via A Diffusion-Based Video Generator

拡散モデルベースの動画生成器を基盤に、生成と理解を一体化したフレームワーク「Uni-ViGU」が発表された。連続・離散フローマッチングを単一プロセスで処理する統合フロー手法と双方向訓練により両タスクを同時最適化。専用モデルに匹敵する性能を単一モデルで実現し、マルチモーダルAI開発の効率化に貢献する。

解説 Uni-ViGUは、従来の「理解中心のMLLMに生成機能を追加する」アプローチを逆転させ、動画生成器を基盤として理解機能を統合するフレームワークです。動画生成は理解と比較して計算コストが大幅に高いため、生成器を基盤とすることでこのコスト非対称性を設計上の強みに変えています。提案手法の核心は3点です。第1に「統合フローメソッド」：映像には連続フローマッチング、テキストには離散フローマッチングを単一プロセス内で実行し、両モダリティを一貫して扱います。第2に「モダリティ駆動MoEフレームワーク」：既存のTransformerブロックに軽量なテキスト生成レイヤーを追加するMixture-of-Experts構造により、映像生成の事前知識を保ちながらテキスト理解能力を拡張します。第3に「双方向訓練メカニズム」：Knowledge Recall（入力プロンプトを再構築してテキスト-映像対応を活用する段階）とCapability Refinement（詳細キャプションで微調整し識別的な共有表現を確立する段階）の2段階で生成知識を理解へ転用します。実験では動画生成・動画理解の両ベンチマークで競争力ある性能を達成しました。GPT-4oやGeminiなどが理解優位の設計であるのに対し、Uni-ViGUは生成側の豊富な事前知識を理解に活かせる点で差別化されており、統合マルチモーダル知能への生成中心アプローチの有効性を示した意義ある研究です。

動画生成マルチモーダル統合拡散モデル動画理解生成中心アーキテクチャ