TTS音声品質をAIが自動評価、HuBERT活用で精度73.7%達成
Neural networks for Text-to-Speech evaluation
TTS
音声品質評価
MOS
HuBERT
Whisper
要約
TTS音声の品質評価を自動化する複数のニューラルモデルが新たに提案された。
相対評価にHuBERT基盤のNeuralSBS(精度73.7%)、絶対評価にWhisperとBERTのアンサンブルを採用。
人手評価に依存してきたTTS開発のボトルネックを解消し、音声AI開発の効率化に貢献する。
無料登録でニュースレターを受け取る
毎週AIニュースのTop5をお届けします(無料)
無料登録 →
Proプランで深掘り分析・全アーカイブを読む
月額300円 / 年額2,400円 / Founding Member 5,000円(買い切り)
Proプランを見る →
原文を読む →
https://arxiv.org/abs/2604.08562
本論文は、テキスト音声合成(TTS)システムの品質評価を自動化する手法を提案している。従来の人間による主観評価(MOS:Mean Opinion Score)やSBS(Side-by-Side比較)は、コストと時間がかかる上、評価者のバイアスが生じやすい。これらの課題を解決するため、著者らは2種類の評価モデルを開発した。相対評価モデルのNeuralSBSは、音声の自己教師あり学習モデルであるHuBERTを基盤とし、SOSOSデータセット上で73.7%の精度を達成した。絶対評価(MOS予測)には2つのアプローチを採用:①既存のMOSNetにカスタムのシーケンス長バッチ処理を導入した改良版、②WhisperBertと呼ぶマルチモーダルスタッキングアンサンブル。WhisperBertはOpenAIのWhisperによる音声特徴とBERTによるテキスト埋め込みを弱学習器を通じて統合する。最良モデルはRMSE(二乗平均平方根誤差)において競争力ある性能を示しており、GPT-4oやGeminiなどの大規模言語モデルとの直接比較は行われていないが、専用設計の軽量モデルでも高精度な自動評価が可能であることを示した。TTSシステムを大規模展開する企業や研究者にとって、評価コスト削減という実用的価値が高い。