Unicode
要約済み 1
-
hf-papers 2日前 3新ベンチマーク、OCRモデルの多言語対応の限界を暴露GlotOCR Bench: OCR Models Still Struggle Beyond a Handful of Unicode Scripts
GlotOCR Benchが100以上のUnicode文字体系でOCRモデルの汎化性能を包括的に評価するベンチマークを公開。 ほとんどのモデルは10未満の文字体系でしか機能せず、最高水準モデルでも30未満に留まる。 事前学習データの文字体系カバー率が性能を左右し、低資源言語のAI対応の課題を浮き彫りにした。
解説 GlotOCR Benchは、光学文字認識(OCR)の評価が一部の高・中リソース文字体系に偏っている問題を解決するために提案された包括的ベンチマークである。Google Fontsのフォントを使用し、テキスト整形エンジンHarfBuzzとフォントラスタライザFreeTypeによってクリーン版・劣化版の画像を生成する。左→右(LTR)と右→左(RTL)双方の文字体系に対応し、実際の多言語テキストから生成された画像のサンプルは手動レビューで品質を確認している。商用・オープンウェイトを問わず多数のビジョン言語モデルを評価した結果、ほとんどのモデルは10未満の文字体系でしか十分な精度を示せず、GPT-4oやGeminiなど最先端モデルでも対応できる文字体系は30未満に留まった。性能は事前学習データにおける各文字体系の網羅度と強く相関しており、現行OCRシステムが視覚的パターン認識よりも言語モデルの事前学習に依存していることを示唆する。未知の文字体系に直面したモデルはランダムノイズを生成するか、形状が類似した既知文字体系の文字を幻覚(ハルシネーション)する傾向があった。低リソース言語や少数文字体系のデジタル化・アーカイブにおける現実的な課題を明確化した点で実用的意義が高い。