音声同期
要約済み 1
-
hf-papers 1日前 4人物動画生成AI「OmniShow」、テキスト・音声・ポーズを同時制御OmniShow: Unifying Multimodal Conditions for Human-Object Interaction Video Generation
テキスト・参照画像・音声・ポーズを同時に制御できる人物動画生成フレームワーク「OmniShow」が発表された。 チャネル結合による条件注入とゲート付き局所音声アテンション機構で高品質な動画生成を実現。 専用ベンチマーク「HOIVG-Bench」で既存手法を上回るSOTA性能を達成し、動画生成技術の新基準を示した。
解説 OmniShowは、人物と物体のインタラクション動画を生成する「HOIVG(Human-Object Interaction Video Generation)」タスクに特化したエンドツーエンドフレームワークである。既存手法は参照画像のみ対応、あるいは音声のみ対応と各条件に特化していたが、本手法はテキスト・参照画像(人物・物体)・音声・ポーズ骨格の4条件を同時制御できる初のフレームワークである。 主要技術は3つ。①「Unified Channel-wise Conditioning」:VAEでエンコードしたポーズ映像と参照画像をチャネル次元で連結し、既存の拡散モデルの入力構造を変えずに効率的に条件を注入する。②「Gated Local-Context Attention」:Wav2Vec 2.0で抽出した音声特徴をスライディングウィンドウで文脈集約し、マスク付きアテンションで各フレームと対応音声のみを関連付ける。学習可能ゲートベクトルで初期学習を安定化し、パラメータ増加を約2.5%(0.3B)に抑える。③「Decoupled-Then-Joint Training」:R2VとA2Vを別々に学習後、重み補間でモデルを結合し段階的に統合することで、データ不足を克服しながら各モダリティの性能を維持する。 HunyuanCustom・HuMo・VACE・Phantomといった最新SOTAと比較した定量実験では、12.3Bという最小パラメータで音声同期スコア(Sync-C: 8.612)・参照一貫性・映像品質のいずれも最高水準を達成。Eコマース動画や短動画制作への実用的応用が期待される。