要約
Googleらがインド109言語・165地区を網羅する大規模音声データセット「VAANI」を公開した。 話者15万人超・総収録3万時間超で、59の未文書化言語を初めて収録している。 地域音声変異の保存により、低リソース言語の音声認識・合成研究の飛躍的な進展が期待される。
公式ソースだけを集めたAIニュースを日本語要約でお届け
When Speech AI Meets the Long Tail of Languages: Inside the VAANI Dataset
Googleらがインド109言語・165地区を網羅する大規模音声データセット「VAANI」を公開した。 話者15万人超・総収録3万時間超で、59の未文書化言語を初めて収録している。 地域音声変異の保存により、低リソース言語の音声認識・合成研究の飛躍的な進展が期待される。
VANIはインド科学研究所(IISc)のARTPARKが開発した大規模多言語音声データセットで、インド全土28州・3連邦直轄領の165地区から収集された。総音声時間31,255時間(転写済み2,043時間)、話者数156,534人という規模を誇り、109言語を収録する。特筆すべきは、既存のオープンソース音声データセットに存在しなかった59言語と、2011年インド国勢調査にも記載のない8言語を初めてデジタル記録した点だ。地区別サンプリング戦略(District-wise Sampling)を採用することで、従来の集中型・クラウドソーシング型では捉えにくかった地域固有の発音差・方言変化を自然な形で記録している。約30万枚の画像と音声を対応付けたマルチモーダル構成も特徴で、視覚連携音声モデルへの活用も見込む。既存の高リソース言語偏重なASRモデルへの警鐘として、「モデル改善より良質なデータの整備こそが多言語AIの鍵」という設計思想が貫かれている。