TTS音声品質をAIが自動評価、HuBERT活用で精度73.7%達成

arxiv-cs-ai 2026-04-13 04:00 ★3

TTS音声品質をAIが自動評価、HuBERT活用で精度73.7%達成

Neural networks for Text-to-Speech evaluation

TTS 音声品質評価 MOS HuBERT Whisper

要約

TTS音声の品質評価を自動化する複数のニューラルモデルが新たに提案された。相対評価にHuBERT基盤のNeuralSBS（精度73.7%）、絶対評価にWhisperとBERTのアンサンブルを採用。人手評価に依存してきたTTS開発のボトルネックを解消し、音声AI開発の効率化に貢献する。

解説・分析

本論文は、テキスト音声合成（TTS）システムの品質評価を自動化する手法を提案している。従来の人間による主観評価（MOS：Mean Opinion Score）やSBS（Side-by-Side比較）は、コストと時間がかかる上、評価者のバイアスが生じやすい。これらの課題を解決するため、著者らは2種類の評価モデルを開発した。相対評価モデルのNeuralSBSは、音声の自己教師あり学習モデルであるHuBERTを基盤とし、SOSOSデータセット上で73.7%の精度を達成した。絶対評価（MOS予測）には2つのアプローチを採用：①既存のMOSNetにカスタムのシーケンス長バッチ処理を導入した改良版、②WhisperBertと呼ぶマルチモーダルスタッキングアンサンブル。WhisperBertはOpenAIのWhisperによる音声特徴とBERTによるテキスト埋め込みを弱学習器を通じて統合する。最良モデルはRMSE（二乗平均平方根誤差）において競争力ある性能を示しており、GPT-4oやGeminiなどの大規模言語モデルとの直接比較は行われていないが、専用設計の軽量モデルでも高精度な自動評価が可能であることを示した。TTSシステムを大規模展開する企業や研究者にとって、評価コスト削減という実用的価値が高い。

AIフロントライン

TTS音声品質をAIが自動評価、HuBERT活用で精度73.7%達成

要約

解説・分析

関連する読者