多言語
要約済み 2
-
hf-blog 1日前 3インド109言語の音声データセット「VAANI」公開、低リソース研究を加速When Speech AI Meets the Long Tail of Languages: Inside the VAANI Dataset
Googleらがインド109言語・165地区を網羅する大規模音声データセット「VAANI」を公開した。 話者15万人超・総収録3万時間超で、59の未文書化言語を初めて収録している。 地域音声変異の保存により、低リソース言語の音声認識・合成研究の飛躍的な進展が期待される。
解説 VANIはインド科学研究所(IISc)のARTPARKが開発した大規模多言語音声データセットで、インド全土28州・3連邦直轄領の165地区から収集された。総音声時間31,255時間(転写済み2,043時間)、話者数156,534人という規模を誇り、109言語を収録する。特筆すべきは、既存のオープンソース音声データセットに存在しなかった59言語と、2011年インド国勢調査にも記載のない8言語を初めてデジタル記録した点だ。地区別サンプリング戦略(District-wise Sampling)を採用することで、従来の集中型・クラウドソーシング型では捉えにくかった地域固有の発音差・方言変化を自然な形で記録している。約30万枚の画像と音声を対応付けたマルチモーダル構成も特徴で、視覚連携音声モデルへの活用も見込む。既存の高リソース言語偏重なASRモデルへの警鐘として、「モデル改善より良質なデータの整備こそが多言語AIの鍵」という設計思想が貫かれている。 -
google-blog-ai 20日前 3GoogleのAIリアルタイム翻訳、iOSに正式対応Transform your headphones into a live personal translator on iOS.
GoogleのイヤホンLiveリアルタイム翻訳機能がiOSで正式提供開始、対応国・地域も拡大。 イヤホン装着だけでAI音声翻訳がシームレスに動作し、言語の壁をリアルタイムで解消。 Android限定から全プラットフォームへの解放で、日常・ビジネス利用の裾野が一気に広がる。