要約
arXiv上のHTML未対応論文3万件をMarkdownへ変換するOCRパイプラインをOpenAI Codexが自律的に構築。 オープンOCRモデルとHugging Face Jobsを組み合わせ、処理コストを約850ドルに抑えAPI比最大68%削減。 LLMによるインフラ設計・実行の自動化が示され、研究データ整備の新たな手法として注目される。
公式ソースだけを集めたAIニュースを日本語要約でお届け
How we OCR'ed 30,000 papers using Codex, open OCR models and Jobs4 days ago•39
arXiv上のHTML未対応論文3万件をMarkdownへ変換するOCRパイプラインをOpenAI Codexが自律的に構築。 オープンOCRモデルとHugging Face Jobsを組み合わせ、処理コストを約850ドルに抑えAPI比最大68%削減。 LLMによるインフラ設計・実行の自動化が示され、研究データ整備の新たな手法として注目される。
Chandra-OCR 2(5Bパラメータ)とHugging Face Jobsの組み合わせで、3万件の論文PDFを約24時間・850ドルでMarkdown化した実践事例。AIコーディングエージェント(Codex)がパイプライン設計からGPU選定、並列ジョブ監視まで自律実行した点が注目される。GPT-4oやClaude等のプロプライエタリAPIに頼らず、オープンモデルで大規模OCRが実用水準に達したことを示しており、研究基盤の民主化に貢献する。