訓練不要でTTSに感情表現、LLM重み3%移植で実現

hf-blog 2026-04-15 04:57 ★3

訓練不要でTTSに感情表現、LLM重み3%移植で実現

Darwin-TTS: We Gave a TTS Model 3% of an LLM's Brain — It Started Showing Emotion

音声合成クロスモーダル重み転送

要約

LLMのFFN重みをTTSモデルに3%ブレンドするだけで感情的な音声合成を実現する手法「Darwin-TTS」が発表された。追加学習・データ・GPU不要で約10秒で適用可能な初のクロスモーダル重み転送を達成。 Qwen3系モデルのアーキテクチャ一致を活用した本手法は、TTS開発のコスト削減に大きく貢献する。

解説・分析

Darwin-TTSは、LLM（Qwen3-1.7B）のFFN（フィードフォワードネットワーク）重みをTTSモデル（Qwen3-TTS-1.7B）のtalkerモジュールに線形補間（lerp）でブレンドする手法。両モデルがhidden_size・レイヤー数・アテンションヘッド数など全パラメータで完全一致していることを発見し、cross-modal重み転送を初めて実現した。ブレンド比率alpha=0.03（3%）が最適で、1%では変化なし、5%以上では出力が崩壊する。修正対象は28層のtalker内にあるgate_proj/up_proj/down_proj計84テンソルのみで、音声コーデック・エンコーダ等は一切変更しない。仮説として、TTS特化ファインチューニングで失われた「言葉の感情的意味パターン」がLLM重みのブレンドで部分的に復元されるとしている。GPT-4oや既存TTS感情制御手法（SmolTolk、CSLM等）は追加学習が必要なのに対し、Darwin-TTSは学習不要・約10秒・H100×1枚で適用可能。ただし感情強度の定量評価（感情分類器等）はまだ行われておらず、Qwen3ファミリー以外への汎化も未検証であり、再現性・有効性の客観的確認が今後の課題。

AIフロントライン

訓練不要でTTSに感情表現、LLM重み3%移植で実現

要約

解説・分析

関連する読者