AIフロントライン

公式ソースだけを集めたAI最前線(日本語要約)

hf-blog 2026-04-15 04:57 ★3

訓練不要でTTSに感情表現、LLM重み3%移植で実現

Darwin-TTS: We Gave a TTS Model 3% of an LLM's Brain — It Started Showing Emotion

音声合成 クロスモーダル重み転送

要約

LLMのFFN重みをTTSモデルに3%ブレンドするだけで感情的な音声合成を実現する手法「Darwin-TTS」が発表された。 追加学習・データ・GPU不要で約10秒で適用可能な初のクロスモーダル重み転送を達成。 Qwen3系モデルのアーキテクチャ一致を活用した本手法は、TTS開発のコスト削減に大きく貢献する。

解説・分析

Darwin-TTSは、LLM(Qwen3-1.7B)のFFN(フィードフォワードネットワーク)重みをTTSモデル(Qwen3-TTS-1.7B)のtalkerモジュールに線形補間(lerp)でブレンドする手法。両モデルがhidden_size・レイヤー数・アテンションヘッド数など全パラメータで完全一致していることを発見し、cross-modal重み転送を初めて実現した。ブレンド比率alpha=0.03(3%)が最適で、1%では変化なし、5%以上では出力が崩壊する。修正対象は28層のtalker内にあるgate_proj/up_proj/down_proj計84テンソルのみで、音声コーデック・エンコーダ等は一切変更しない。仮説として、TTS特化ファインチューニングで失われた「言葉の感情的意味パターン」がLLM重みのブレンドで部分的に復元されるとしている。GPT-4oや既存TTS感情制御手法(SmolTolk、CSLM等)は追加学習が必要なのに対し、Darwin-TTSは学習不要・約10秒・H100×1枚で適用可能。ただし感情強度の定量評価(感情分類器等)はまだ行われておらず、Qwen3ファミリー以外への汎化も未検証であり、再現性・有効性の客観的確認が今後の課題。

関連する読者

開発者 研究者