ストリーミング音声合成

1件の記事

要約済み 1

hf-papers 10時間前 5
Alibaba、音声対応『Qwen3.5-Omni』発表──Gemini Proを超越
Qwen3.5-Omni Technical Report

AlibabaDaqoが次世代マルチモーダルAI『Qwen3.5-Omni』を発表した。数千億パラメータ・256kコンテキストで、音声・動画処理の215ベンチマークすべてでSOTA達成、Gemini Proを上回る。 ARIA技術で音声合成の自然さを大幅改善、次世代マルチモーダルAI実装が加速する見通し。

解説 Qwen3.5-OmniはAlibabaのQwenチームが開発した全モーダル統合型の最新大規模モデル。数千億パラメータ規模で256kトークンの長文脈に対応し、テキスト・音声・画像・動画を単一モデルで処理する。1億時間超の音声映像データを含む大規模異種データセットで学習し、215の音声・音声映像ベンチマークでSOTAを達成。主要音声タスクではGemini 2.5 Proを上回り、総合音声映像理解でも同等性能を示す。アーキテクチャは「Thinker（推論担当）」と「Talker（音声出力担当）」の2モジュール構成にHybrid Attention MoEを採用し、長文脈の効率的推論を実現。最大10時間超の音声と720P・400秒の動画理解が可能。本論文の主要新提案であるARIA機構は、テキストと音声のトークナイザ間に存在するエンコード効率の差異に起因するストリーミング音声合成の不安定性・不自然さを動的アライメントで解決し、低遅延かつ自然な韻律の会話音声を実現する。10言語対応と感情表現も備え、エンドツーエンドの多言語音声AIアシスタント開発に直結する実用的成果である。

マルチモーダル音声処理大規模言語モデル動画理解ストリーミング音声合成