多言語対応

1件の記事

要約済み 1

hf-blog 20時間前 3
音声テキスト自動同期ツール「easyaligner」公開
easyaligner: Forced alignment of text and audio, made easy

音声とテキストを単語レベルで自動的に時刻対応させるPythonライブラリ「easyaligner」が公開された。 VAD・音響特徴抽出・Viterbiアルゴリズムの3段階処理で、数時間分の音声を分割なしに一括処理可能。字幕生成や音声コーパス構築など、音声AIの学習データ整備を大幅に効率化する。

解説 easyalignerはスウェーデン国立図書館KBLabが開発した強制アラインメント（forced alignment：音声とテキストを時刻対応させる処理）のPythonライブラリ。PyTorchの強制アラインメントAPIを基盤とし、①音声区間検出（VAD）、②音響特徴量（emission）の抽出、③Viterbiアルゴリズムによるアラインメントの3段階パイプラインで動作する。最大の特徴は、数時間分の音声を事前分割せず一括処理できるグローバルアラインメントであり、単語レベルのタイムスタンプと信頼スコアをJSON形式で出力する点。テキストが音声の一部のみをカバーするケースにも対応し、ASR転写とのファジーマッチングで音声領域を自動特定する機能も備える。facebook/mms-1b-allモデルを使えば1000言語以上に対応可能。実績として約23,000時間の国会発言データセットRixVox-v2の構築に活用されており、字幕修正・音声合成用データセット作成・議会記録のアクセシビリティ向上など幅広い用途に適する実用的なツールである。

強制アラインメント音声処理データセット構築多言語対応