要約
自己回帰型音声合成モデルの計算・メモリ効率を高めるWANDフレームワークが発表された。 窓型注意機構と知識蒸留を組み合わせ、KVキャッシュを最大66.2%削減しながら品質を維持。 リアルタイムTTSや端末上での音声合成など、低リソース環境への展開を大きく前進させる。
公式ソースだけを集めたAIニュースを日本語要約でお届け
WAND: Windowed Attention and Knowledge Distillation for Efficient Autoregressive Text-to-Speech Models
自己回帰型音声合成モデルの計算・メモリ効率を高めるWANDフレームワークが発表された。 窓型注意機構と知識蒸留を組み合わせ、KVキャッシュを最大66.2%削減しながら品質を維持。 リアルタイムTTSや端末上での音声合成など、低リソース環境への展開を大きく前進させる。
本論文は、近年高品質な音声合成を実現している自己回帰型テキスト読み上げ(AR-TTS)モデルの根本的な課題――シーケンス長に対して二次的に増大するメモリ・計算コスト――を解決するWAND(Windowed Attention and Knowledge Distillation)フレームワークを提案する。
提案手法の核心は注意機構の二分化にある。テキストや話者情報などの「条件付けトークン」に対しては全系列を参照するグローバル注意を維持し、音声トークンとして生成されるトークン列には局所的なスライディングウィンドウ注意のみを適用する。これにより推論時のKVキャッシュ(各トークンの計算結果を保持するメモリ領域)が定数量に抑えられ、長い音声でも一定のメモリ使用量で動作する。
ファインチューニング時の安定化には、最初は広い窓から徐々に窓サイズを縮小するカリキュラム学習を採用。さらに、フル注意を用いる教師モデルから生徒モデル(WAND)への知識蒸留を行い、データ効率よく高品質な合成を回復する。
3種の最新AR-TTSモデルで評価した結果、元のモデルと同等の品質を維持しつつ最大66.2%のKVキャッシュ削減と推論速度の向上を達成。長文読み上げや低メモリ環境での実用展開に直接的な意義を持ち、エッジデバイスへの音声合成モデル搭載を現実的にする成果といえる。