TTS

3件の記事

要約済み 3

arxiv-cs-ai 2日前 4
研究者ら、TTS推論コストを大幅削減するWANDを発表
WAND: Windowed Attention and Knowledge Distillation for Efficient Autoregressive Text-to-Speech Models

自己回帰型音声合成モデルの計算・メモリ効率を高めるWANDフレームワークが発表された。窓型注意機構と知識蒸留を組み合わせ、KVキャッシュを最大66.2%削減しながら品質を維持。リアルタイムTTSや端末上での音声合成など、低リソース環境への展開を大きく前進させる。

解説本論文は、近年高品質な音声合成を実現している自己回帰型テキスト読み上げ（AR-TTS）モデルの根本的な課題――シーケンス長に対して二次的に増大するメモリ・計算コスト――を解決するWAND（Windowed Attention and Knowledge Distillation）フレームワークを提案する。提案手法の核心は注意機構の二分化にある。テキストや話者情報などの「条件付けトークン」に対しては全系列を参照するグローバル注意を維持し、音声トークンとして生成されるトークン列には局所的なスライディングウィンドウ注意のみを適用する。これにより推論時のKVキャッシュ（各トークンの計算結果を保持するメモリ領域）が定数量に抑えられ、長い音声でも一定のメモリ使用量で動作する。ファインチューニング時の安定化には、最初は広い窓から徐々に窓サイズを縮小するカリキュラム学習を採用。さらに、フル注意を用いる教師モデルから生徒モデル（WAND）への知識蒸留を行い、データ効率よく高品質な合成を回復する。 3種の最新AR-TTSモデルで評価した結果、元のモデルと同等の品質を維持しつつ最大66.2%のKVキャッシュ削減と推論速度の向上を達成。長文読み上げや低メモリ環境での実用展開に直接的な意義を持ち、エッジデバイスへの音声合成モデル搭載を現実的にする成果といえる。

TTS 自己回帰モデルアテンション機構知識蒸留効率化
arxiv-cs-ai 2日前 3
TTS音声品質をAIが自動評価、HuBERT活用で精度73.7%達成
Neural networks for Text-to-Speech evaluation

TTS音声の品質評価を自動化する複数のニューラルモデルが新たに提案された。相対評価にHuBERT基盤のNeuralSBS（精度73.7%）、絶対評価にWhisperとBERTのアンサンブルを採用。人手評価に依存してきたTTS開発のボトルネックを解消し、音声AI開発の効率化に貢献する。

解説本論文は、テキスト音声合成（TTS）システムの品質評価を自動化する手法を提案している。従来の人間による主観評価（MOS：Mean Opinion Score）やSBS（Side-by-Side比較）は、コストと時間がかかる上、評価者のバイアスが生じやすい。これらの課題を解決するため、著者らは2種類の評価モデルを開発した。相対評価モデルのNeuralSBSは、音声の自己教師あり学習モデルであるHuBERTを基盤とし、SOSOSデータセット上で73.7%の精度を達成した。絶対評価（MOS予測）には2つのアプローチを採用：①既存のMOSNetにカスタムのシーケンス長バッチ処理を導入した改良版、②WhisperBertと呼ぶマルチモーダルスタッキングアンサンブル。WhisperBertはOpenAIのWhisperによる音声特徴とBERTによるテキスト埋め込みを弱学習器を通じて統合する。最良モデルはRMSE（二乗平均平方根誤差）において競争力ある性能を示しており、GPT-4oやGeminiなどの大規模言語モデルとの直接比較は行われていないが、専用設計の軽量モデルでも高精度な自動評価が可能であることを示した。TTSシステムを大規模展開する企業や研究者にとって、評価コスト削減という実用的価値が高い。

TTS 音声品質評価 MOS HuBERT Whisper
mistral-news 23日前 4
MistralがVoxtral TTSを発表、多言語音声合成に対応
Speaking of Voxtral

Mistralが音声合成（TTS）モデル「Voxtral TTS」を発表、Voxtralシリーズに新機能を追加。多言語対応の高品質な音声生成が特徴で、自然な読み上げを実現。 API経由で即時利用可能となり、開発者の音声アプリ開発が大幅に容易化。

解説 MistralはVoxtralシリーズの新展開として、テキスト読み上げ（TTS: Text-to-Speech）機能を発表した。Voxtralはもともと音声理解・文字起こしに特化したモデルとして登場したが、今回のVoxtral TTSにより双方向の音声処理能力を持つエコシステムへと進化する。TTS（テキスト読み上げ）とは、テキストデータを自然な音声に変換する技術であり、音声アシスタント・ナレーション・アクセシビリティツールなど幅広い用途がある。Mistralのアプローチは、同社が得意とする軽量・高効率なモデル設計をTTS領域にも適用している点が特徴で、OpenAIのTTSやElevenLabsなどの既存サービスと競合する位置づけとなる。多言語対応も視野に入れており、英語以外の言語での自然な音声生成も期待される。開発者にとってはAPIを通じて音声合成機能を手軽に組み込めるようになり、音声インターフェースを持つアプリ開発の敷居が下がる。MistralがLLM（大規模言語モデル）から音声モダリティへ本格展開することで、マルチモーダルAI分野での存在感がさらに高まると見られる。※本文が取得できなかったため、URLおよびタイトルから推定した内容を含みます。

TTS 音声合成 Mistral Voxtral 音声AI