LightOn、1BパラメータでGPT-4V級OCRを実現

hf-blog 2026-01-19 17:36 ★4

LightOnOCR-2-1B: a lightweight high-performance end-to-end OCR model family

OCR 軽量モデル文書解析視覚言語モデル RLVR

LightOnが軽量エンドツーエンドOCRモデル「LightOnOCR-2-1B」を公開した。 OlmOCR-Benchで83.2点を達成し、9B超の大型モデルを性能・処理速度で上回る。 Apache 2.0ライセンスで無償公開され、エッジ環境での高精度OCR導入が現実的に。

LightOnOCR-2-1BはLightOn社が開発した1Bパラメータのエンドツーエンド型OCRモデル。従来の検出・認識を分離するマルチステージパイプラインを廃し、単一の視覚言語モデルで文書画像からテキストを直接抽出する。

【性能】OlmOCR-Bench（1,403ページ）で83.2点を記録し、9Bパラメータを持つChandra OCRを1.5ポイント上回りながらモデルサイズは約9分の1。推論速度はChandra比3.3倍、dots.ocr比5倍と大幅に高速で、単一H100 GPUでの実用スループットも高い。

【学習】16M枚超の高品質アノテーション済み文書ページと約50万枚のバウンディングボックス付きデータで訓練。強化学習（RLVR: Reinforcement Learning from Visual Rewards）による後訓練でループ・幻覚を低減。

【モデルファミリー】テキスト抽出専用・バウンディングボックス出力対応・両者をマージしたバランス型など6種類のチェックポイントを公開し、ファインチューニング用ベースモデルも提供。

【実用上の意義】GPT-4oやClaudeなどクラウドAPIに頼らずローカル・オンプレミスで高精度OCRを実現できる点が最大の強み。ArXiv論文・数式・表・劣化スキャンへの対応も強く、研究・エンタープライズ文書処理の両方で即戦力となる。

🔒

この分析はProプラン限定です

Proプランに登録 →

原文を読む → https://huggingface.co/blog/lightonai/lightonocr-2

AIフロントライン