音声動画同時生成
要約済み 1
-
hf-papers 3日前 4ByteDance、Seedance 2.0公開——音声付き動画を直接生成Seedance 2.0: Advancing Video Generation for World Complexity
ByteDanceがテキスト・画像・音声・動画の4モダリティを統合した動画生成モデル「Seedance 2.0」を公開した。 4〜15秒の動画を480p/720pで生成し、ネイティブ音声同時生成・複数クリップ参照編集に対応する。 専門家評価と公開テストで業界トップ水準の性能を実証し、動画生成AIの競争に本格参戦する。
解説 Seedance 2.0はByteDanceが2026年2月に公開したネイティブ音声動画同時生成モデルで、前世代(1.0/1.5 Pro)と比べ統合アーキテクチャを大幅に刷新した点が最大の特徴です。従来多くの動画生成モデルは映像と音声を別々のパイプラインで処理していましたが、本モデルは単一の大規模統合アーキテクチャで両モダリティを同時に生成します。入力としてテキスト・画像・音声・動画の4種類をサポートし、最大3本の動画クリップ・9枚の画像・3本の音声クリップを参照素材として与えることができます。出力は4〜15秒、解像度は480pと720pに対応しています。また低レイテンシ用途向けに「Seedance 2.0 Fast」という高速推論バリアントも提供されます。評価面では専門家によるブラインドテストと一般公開ユーザーテストの双方で、Sora・Veoなど競合するトップモデルと同等水準のスコアを記録したと報告されています。映像品質・動作一貫性・音声同期・編集柔軟性の全サブ指標で前世代から大幅改善が確認されており、クリエイター向けの実用ツールとしての完成度が高い点が特筆されます。ただし技術詳細(アーキテクチャの具体的構造・学習データ規模)の公開は限定的で、研究論文というよりテクニカルレポートの性格が強いです。