OCR

hf-blog 3日前 4

Falcon Perception、0.6BモデルでSAM 3を大きく超える性能を達成

Falcon Perception

オープン語彙セグメンテーション・物体検出モデル「Falcon Perception」（0.6B）が公開された。早期融合Transformerを採用し、SAM 3を空間理解で+21.9pt、属性認識で+9.2pt上回る。コンパニオンのFalcon OCR（0.3B）はGPT-4oやDeepSeek OCR v2をも凌駕し、軽量モデルの可能性を示す。

解説わずか0.6BパラメータでSAM 3を大幅に上回り、特に空間理解・関係推論・密集シーンで圧倒的な差を見せる。SAM 3が苦手なOCR連携グラウンディングや複合的プロンプトへの対応力が際立つ。Falcon OCR(0.3B)もGPT-5.2やMistral OCR 3を超える精度を達成しており、エッジデバイスやコスト重視の本番環境での視覚理解パイプラインに大きな選択肢を与える。開発者にとってはvLLM対応やMLX統合など実デプロイの容易さも魅力。

マルチモーダルセグメンテーション OCR 軽量モデルオープンソース

hf-blog 4日前 3

llama.cppでOCRモデルのローカル実行が可能に

Using OCR models with llama.cpp1 day ago•19

llama.cppがGGUF形式でGLM-OCRなど軽量OCRモデルの実行をサポート。 4GB VRAM以下のGPUやCPUでも動作し、Q8_0量子化でパフォーマンスとサイズのバランスを調整可能。サーバーモードによるAPI連携も実現し、外部サービス不要のローカルOCR環境が個人でも構築できる。

解説クラウドAPIに依存せずローカルでOCRを完結できる実用的なガイド。GPT-4oやClaude等の商用マルチモーダルAPIは高精度だがコストとプライバシーの課題がある。本記事はGGUF量子化により4GB VRAMの低スペック環境でも動作する点が魅力で、エッジデバイスやオンプレ環境での文書処理パイプライン構築に直結する。開発者にとってはOpenAI互換APIとして即座に組み込める実用性が高い。

OCR llama.cpp GGUF ローカル推論量子化

hf-blog 7日前 3

Codexが3万論文OCRを自律設計、コスト半減

How we OCR'ed 30,000 papers using Codex, open OCR models and Jobs4 days ago•39

arXiv上のHTML未対応論文3万件をMarkdownへ変換するOCRパイプラインをOpenAI Codexが自律的に構築。オープンOCRモデルとHugging Face Jobsを組み合わせ、処理コストを約850ドルに抑えAPI比最大68%削減。 LLMによるインフラ設計・実行の自動化が示され、研究データ整備の新たな手法として注目される。

解説 Chandra-OCR 2（5Bパラメータ）とHugging Face Jobsの組み合わせで、3万件の論文PDFを約24時間・850ドルでMarkdown化した実践事例。AIコーディングエージェント（Codex）がパイプライン設計からGPU選定、並列ジョブ監視まで自律実行した点が注目される。GPT-4oやClaude等のプロプライエタリAPIに頼らず、オープンモデルで大規模OCRが実用水準に達したことを示しており、研究基盤の民主化に貢献する。

OCR 大規模処理 Hugging Face Codex オープンモデル

hf-blog 2ヶ月前 4

LightOn、1BパラメータでGPT-4V級OCRを実現

LightOnOCR-2-1B: a lightweight high-performance end-to-end OCR model family

LightOnが軽量エンドツーエンドOCRモデル「LightOnOCR-2-1B」を公開した。 OlmOCR-Benchで83.2点を達成し、9B超の大型モデルを性能・処理速度で上回る。 Apache 2.0ライセンスで無償公開され、エッジ環境での高精度OCR導入が現実的に。

解説 LightOnOCR-2-1BはLightOn社が開発した1Bパラメータのエンドツーエンド型OCRモデル。従来の検出・認識を分離するマルチステージパイプラインを廃し、単一の視覚言語モデルで文書画像からテキストを直接抽出する。【性能】OlmOCR-Bench（1,403ページ）で83.2点を記録し、9Bパラメータを持つChandra OCRを1.5ポイント上回りながらモデルサイズは約9分の1。推論速度はChandra比3.3倍、dots.ocr比5倍と大幅に高速で、単一H100 GPUでの実用スループットも高い。【学習】16M枚超の高品質アノテーション済み文書ページと約50万枚のバウンディングボックス付きデータで訓練。強化学習（RLVR: Reinforcement Learning from Visual Rewards）による後訓練でループ・幻覚を低減。【モデルファミリー】テキスト抽出専用・バウンディングボックス出力対応・両者をマージしたバランス型など6種類のチェックポイントを公開し、ファインチューニング用ベースモデルも提供。【実用上の意義】GPT-4oやClaudeなどクラウドAPIに頼らずローカル・オンプレミスで高精度OCRを実現できる点が最大の強み。ArXiv論文・数式・表・劣化スキャンへの対応も強く、研究・エンタープライズ文書処理の両方で即戦力となる。

OCR 軽量モデル文書解析視覚言語モデル RLVR

要約済み 4