要約
NVIDIAが合成データ1220万件で訓練した多言語OCRモデルをオープン公開した。 日中韓露英を単一モデルでカバーし、A100で34.7ページ/秒の処理速度を達成。 PaddleOCR比28倍の高速性は文書処理パイプラインの実用水準を大きく引き上げる。
公式ソースだけを集めたAI最前線(日本語要約)
Building a Fast Multilingual OCR Model with Synthetic Data
NVIDIAが合成データ1220万件で訓練した多言語OCRモデルをオープン公開した。 日中韓露英を単一モデルでカバーし、A100で34.7ページ/秒の処理速度を達成。 PaddleOCR比28倍の高速性は文書処理パイプラインの実用水準を大きく引き上げる。
NVIDIAのNemotron OCR v2は、合成データのみで訓練された多言語OCRモデル。アーキテクチャはFOTS(高速方向付きテキスト検出)をベースに、テキスト検出器・文字認識器・関係モデルの3コンポーネントで構成され、高価な畳み込み処理を1度だけ実行して特徴マップを各コンポーネントで再利用することで高速化を実現。訓練データは修正版SynthDoGで生成した1220万枚の合成画像で、英語・中国語(簡体・繁体)・日本語・韓国語・ロシア語に対応。多言語版モデル(84Mパラメータ)は言語検出不要の単一モデルながら、各言語の専門特化モデルを上回るNED精度を達成。OmniDocBenchでの実世界評価では、A100 GPU上で34.7ページ/秒とPaddleOCR v5比約28倍の速度を記録。合成データパイプラインはmOSCAR(163言語コーパス)とNotoフォントと組み合わせることで163言語以上への拡張が可能であり、実用的なスケーラビリティが高い。モデル・データセットともにオープンリリース済み。