インド109言語の音声データセット「VAANI」公開、低リソース研究を加速

hf-blog 2026-04-14 07:08 ★3

インド109言語の音声データセット「VAANI」公開、低リソース研究を加速

When Speech AI Meets the Long Tail of Languages: Inside the VAANI Dataset

低リソース言語音声データセット多言語インド語

要約

Googleらがインド109言語・165地区を網羅する大規模音声データセット「VAANI」を公開した。話者15万人超・総収録3万時間超で、59の未文書化言語を初めて収録している。地域音声変異の保存により、低リソース言語の音声認識・合成研究の飛躍的な進展が期待される。

解説・分析

VANIはインド科学研究所(IISc)のARTPARKが開発した大規模多言語音声データセットで、インド全土28州・3連邦直轄領の165地区から収集された。総音声時間31,255時間（転写済み2,043時間）、話者数156,534人という規模を誇り、109言語を収録する。特筆すべきは、既存のオープンソース音声データセットに存在しなかった59言語と、2011年インド国勢調査にも記載のない8言語を初めてデジタル記録した点だ。地区別サンプリング戦略（District-wise Sampling）を採用することで、従来の集中型・クラウドソーシング型では捉えにくかった地域固有の発音差・方言変化を自然な形で記録している。約30万枚の画像と音声を対応付けたマルチモーダル構成も特徴で、視覚連携音声モデルへの活用も見込む。既存の高リソース言語偏重なASRモデルへの警鐘として、「モデル改善より良質なデータの整備こそが多言語AIの鍵」という設計思想が貫かれている。

AIフロントライン

インド109言語の音声データセット「VAANI」公開、低リソース研究を加速

要約

解説・分析

関連する読者