音声映像統合

1件の記事

要約済み 1

hf-papers 2日前 4
ByteDance、音声映像統合の動画生成モデル「Seedance 2.0」発表
Seedance 2.0: Advancing Video Generation for World Complexity

ByteDanceがテキスト・画像・音声・動画の4モダリティを同時処理するネイティブ生成モデル「Seedance 2.0」を公開した。 4〜15秒の映像を480p/720pで生成し、最大3動画・9画像・3音声を参照入力として活用できる高機能設計。専門家評価と公開テストで業界最高水準の性能を実証しており、動画生成AIの新たな基準となる可能性がある。

解説 Seedance 2.0は、前世代モデル（Seedance 1.0/1.5 Pro）を大幅に刷新した統合型マルチモーダル生成モデルである。最大の特徴は、テキスト・画像・音声・動画の4つの入力モダリティを単一の大規模アーキテクチャで処理し、映像と音声を同時に生成できる点にある。従来のモデルでは映像と音声を別々のパイプラインで生成することが多かったが、本モデルはそれを統合することで一貫性の高いコンテンツ制作を実現する。出力は4〜15秒の動画（480p/720p）で、参照入力として最大3動画・9画像・3音声クリップを受け付けるため、スタイル転送・編集・リップシンクなど多様な編集ワークフローに対応する。低遅延用途向けに推論を高速化したSeedance 2.0 Fastバージョンも提供される。専門家評価と公開ユーザーテストにおいてSora・Veoなど業界最高水準のモデルと同等の性能を示したとされるが、定量的ベンチマーク数値の詳細は本抄録では未開示。2026年2月に中国で公式リリース済みであり、商用クリエイティブツールとしての即時実用性が高い。特にマルチモーダル参照入力と音声映像の同時生成という組み合わせは、既存の公開モデルと比較して差別化要因となる。

動画生成マルチモーダル音声映像統合