音声合成

2件の記事

要約済み 2

hf-blog 6時間前 3
訓練不要でTTSに感情表現、LLM重み3%移植で実現
Darwin-TTS: We Gave a TTS Model 3% of an LLM's Brain — It Started Showing Emotion

LLMのFFN重みをTTSモデルに3%ブレンドするだけで感情的な音声合成を実現する手法「Darwin-TTS」が発表された。追加学習・データ・GPU不要で約10秒で適用可能な初のクロスモーダル重み転送を達成。 Qwen3系モデルのアーキテクチャ一致を活用した本手法は、TTS開発のコスト削減に大きく貢献する。

解説 Darwin-TTSは、LLM（Qwen3-1.7B）のFFN（フィードフォワードネットワーク）重みをTTSモデル（Qwen3-TTS-1.7B）のtalkerモジュールに線形補間（lerp）でブレンドする手法。両モデルがhidden_size・レイヤー数・アテンションヘッド数など全パラメータで完全一致していることを発見し、cross-modal重み転送を初めて実現した。ブレンド比率alpha=0.03（3%）が最適で、1%では変化なし、5%以上では出力が崩壊する。修正対象は28層のtalker内にあるgate_proj/up_proj/down_proj計84テンソルのみで、音声コーデック・エンコーダ等は一切変更しない。仮説として、TTS特化ファインチューニングで失われた「言葉の感情的意味パターン」がLLM重みのブレンドで部分的に復元されるとしている。GPT-4oや既存TTS感情制御手法（SmolTolk、CSLM等）は追加学習が必要なのに対し、Darwin-TTSは学習不要・約10秒・H100×1枚で適用可能。ただし感情強度の定量評価（感情分類器等）はまだ行われておらず、Qwen3ファミリー以外への汎化も未検証であり、再現性・有効性の客観的確認が今後の課題。

音声合成クロスモーダル重み転送
mistral-news 23日前 4
MistralがVoxtral TTSを発表、多言語音声合成に対応
Speaking of Voxtral

Mistralが音声合成（TTS）モデル「Voxtral TTS」を発表、Voxtralシリーズに新機能を追加。多言語対応の高品質な音声生成が特徴で、自然な読み上げを実現。 API経由で即時利用可能となり、開発者の音声アプリ開発が大幅に容易化。

解説 MistralはVoxtralシリーズの新展開として、テキスト読み上げ（TTS: Text-to-Speech）機能を発表した。Voxtralはもともと音声理解・文字起こしに特化したモデルとして登場したが、今回のVoxtral TTSにより双方向の音声処理能力を持つエコシステムへと進化する。TTS（テキスト読み上げ）とは、テキストデータを自然な音声に変換する技術であり、音声アシスタント・ナレーション・アクセシビリティツールなど幅広い用途がある。Mistralのアプローチは、同社が得意とする軽量・高効率なモデル設計をTTS領域にも適用している点が特徴で、OpenAIのTTSやElevenLabsなどの既存サービスと競合する位置づけとなる。多言語対応も視野に入れており、英語以外の言語での自然な音声生成も期待される。開発者にとってはAPIを通じて音声合成機能を手軽に組み込めるようになり、音声インターフェースを持つアプリ開発の敷居が下がる。MistralがLLM（大規模言語モデル）から音声モダリティへ本格展開することで、マルチモーダルAI分野での存在感がさらに高まると見られる。※本文が取得できなかったため、URLおよびタイトルから推定した内容を含みます。

TTS 音声合成 Mistral Voxtral 音声AI