音声同期

1件の記事

要約済み 1

hf-papers 1日前 4
人物動画生成AI「OmniShow」、テキスト・音声・ポーズを同時制御
OmniShow: Unifying Multimodal Conditions for Human-Object Interaction Video Generation

テキスト・参照画像・音声・ポーズを同時に制御できる人物動画生成フレームワーク「OmniShow」が発表された。チャネル結合による条件注入とゲート付き局所音声アテンション機構で高品質な動画生成を実現。専用ベンチマーク「HOIVG-Bench」で既存手法を上回るSOTA性能を達成し、動画生成技術の新基準を示した。

解説 OmniShowは、人物と物体のインタラクション動画を生成する「HOIVG（Human-Object Interaction Video Generation）」タスクに特化したエンドツーエンドフレームワークである。既存手法は参照画像のみ対応、あるいは音声のみ対応と各条件に特化していたが、本手法はテキスト・参照画像（人物・物体）・音声・ポーズ骨格の4条件を同時制御できる初のフレームワークである。主要技術は3つ。①「Unified Channel-wise Conditioning」：VAEでエンコードしたポーズ映像と参照画像をチャネル次元で連結し、既存の拡散モデルの入力構造を変えずに効率的に条件を注入する。②「Gated Local-Context Attention」：Wav2Vec 2.0で抽出した音声特徴をスライディングウィンドウで文脈集約し、マスク付きアテンションで各フレームと対応音声のみを関連付ける。学習可能ゲートベクトルで初期学習を安定化し、パラメータ増加を約2.5%（0.3B）に抑える。③「Decoupled-Then-Joint Training」：R2VとA2Vを別々に学習後、重み補間でモデルを結合し段階的に統合することで、データ不足を克服しながら各モダリティの性能を維持する。 HunyuanCustom・HuMo・VACE・Phantomといった最新SOTAと比較した定量実験では、12.3Bという最小パラメータで音声同期スコア（Sync-C: 8.612）・参照一貫性・映像品質のいずれも最高水準を達成。Eコマース動画や短動画制作への実用的応用が期待される。

動画生成マルチモーダル人物-物体インタラクション拡散モデル音声同期