音声合成
要約済み 2
-
hf-blog 6時間前 3訓練不要でTTSに感情表現、LLM重み3%移植で実現Darwin-TTS: We Gave a TTS Model 3% of an LLM's Brain — It Started Showing Emotion
LLMのFFN重みをTTSモデルに3%ブレンドするだけで感情的な音声合成を実現する手法「Darwin-TTS」が発表された。 追加学習・データ・GPU不要で約10秒で適用可能な初のクロスモーダル重み転送を達成。 Qwen3系モデルのアーキテクチャ一致を活用した本手法は、TTS開発のコスト削減に大きく貢献する。
解説 Darwin-TTSは、LLM(Qwen3-1.7B)のFFN(フィードフォワードネットワーク)重みをTTSモデル(Qwen3-TTS-1.7B)のtalkerモジュールに線形補間(lerp)でブレンドする手法。両モデルがhidden_size・レイヤー数・アテンションヘッド数など全パラメータで完全一致していることを発見し、cross-modal重み転送を初めて実現した。ブレンド比率alpha=0.03(3%)が最適で、1%では変化なし、5%以上では出力が崩壊する。修正対象は28層のtalker内にあるgate_proj/up_proj/down_proj計84テンソルのみで、音声コーデック・エンコーダ等は一切変更しない。仮説として、TTS特化ファインチューニングで失われた「言葉の感情的意味パターン」がLLM重みのブレンドで部分的に復元されるとしている。GPT-4oや既存TTS感情制御手法(SmolTolk、CSLM等)は追加学習が必要なのに対し、Darwin-TTSは学習不要・約10秒・H100×1枚で適用可能。ただし感情強度の定量評価(感情分類器等)はまだ行われておらず、Qwen3ファミリー以外への汎化も未検証であり、再現性・有効性の客観的確認が今後の課題。 -
mistral-news 23日前 4MistralがVoxtral TTSを発表、多言語音声合成に対応Speaking of Voxtral
Mistralが音声合成(TTS)モデル「Voxtral TTS」を発表、Voxtralシリーズに新機能を追加。 多言語対応の高品質な音声生成が特徴で、自然な読み上げを実現。 API経由で即時利用可能となり、開発者の音声アプリ開発が大幅に容易化。
解説 MistralはVoxtralシリーズの新展開として、テキスト読み上げ(TTS: Text-to-Speech)機能を発表した。Voxtralはもともと音声理解・文字起こしに特化したモデルとして登場したが、今回のVoxtral TTSにより双方向の音声処理能力を持つエコシステムへと進化する。TTS(テキスト読み上げ)とは、テキストデータを自然な音声に変換する技術であり、音声アシスタント・ナレーション・アクセシビリティツールなど幅広い用途がある。Mistralのアプローチは、同社が得意とする軽量・高効率なモデル設計をTTS領域にも適用している点が特徴で、OpenAIのTTSやElevenLabsなどの既存サービスと競合する位置づけとなる。多言語対応も視野に入れており、英語以外の言語での自然な音声生成も期待される。開発者にとってはAPIを通じて音声合成機能を手軽に組み込めるようになり、音声インターフェースを持つアプリ開発の敷居が下がる。MistralがLLM(大規模言語モデル)から音声モダリティへ本格展開することで、マルチモーダルAI分野での存在感がさらに高まると見られる。※本文が取得できなかったため、URLおよびタイトルから推定した内容を含みます。