AIフロントライン

公式ソースだけを集めたAI最前線(日本語要約)

hf-papers ★4

人物動画生成AI「OmniShow」、テキスト・音声・ポーズを同時制御

OmniShow: Unifying Multimodal Conditions for Human-Object Interaction Video Generation

動画生成 マルチモーダル 人物-物体インタラクション 拡散モデル 音声同期

要約

テキスト・参照画像・音声・ポーズを同時に制御できる人物動画生成フレームワーク「OmniShow」が発表された。 チャネル結合による条件注入とゲート付き局所音声アテンション機構で高品質な動画生成を実現。 専用ベンチマーク「HOIVG-Bench」で既存手法を上回るSOTA性能を達成し、動画生成技術の新基準を示した。

解説・分析

OmniShowは、人物と物体のインタラクション動画を生成する「HOIVG(Human-Object Interaction Video Generation)」タスクに特化したエンドツーエンドフレームワークである。既存手法は参照画像のみ対応、あるいは音声のみ対応と各条件に特化していたが、本手法はテキスト・参照画像(人物・物体)・音声・ポーズ骨格の4条件を同時制御できる初のフレームワークである。

主要技術は3つ。①「Unified Channel-wise Conditioning」:VAEでエンコードしたポーズ映像と参照画像をチャネル次元で連結し、既存の拡散モデルの入力構造を変えずに効率的に条件を注入する。②「Gated Local-Context Attention」:Wav2Vec 2.0で抽出した音声特徴をスライディングウィンドウで文脈集約し、マスク付きアテンションで各フレームと対応音声のみを関連付ける。学習可能ゲートベクトルで初期学習を安定化し、パラメータ増加を約2.5%(0.3B)に抑える。③「Decoupled-Then-Joint Training」:R2VとA2Vを別々に学習後、重み補間でモデルを結合し段階的に統合することで、データ不足を克服しながら各モダリティの性能を維持する。

HunyuanCustom・HuMo・VACE・Phantomといった最新SOTAと比較した定量実験では、12.3Bという最小パラメータで音声同期スコア(Sync-C: 8.612)・参照一貫性・映像品質のいずれも最高水準を達成。Eコマース動画や短動画制作への実用的応用が期待される。

関連する読者

開発者 研究者