評価 - AIフロントライン

評価

2件の記事

要約済み 2

hf-papers 3日前 4
100職業でAIエージェントを評価する新ベンチマーク「OccuBench」公開
OccuBench: Evaluating AI Agents on Real-World Professional Tasks via Language World Models

実世界の100職業・65専門分野をカバーするAIエージェント評価基準「OccuBench」が公開された。言語世界モデルでドメイン固有環境をシミュレートし、実際のツール不要で評価を実現。 15モデルを比較し、暗黙的障害が明示的エラーより検出困難なことを示す重要な知見を提供。

解説 OccuBenchは、救急トリアージや原子炉安全監視・税関処理など現実の職業100タスクを10産業・65専門分野にわたって評価する新ベンチマーク。従来の評価基盤は公開環境が存在する少数ドメインのみ対応可能だったが、本研究はLanguage World Models（LWM）という手法でこの制約を克服する。LWMはLLMがドメイン固有のツール応答を動的に生成することで、任意の職業環境を仮想的にシミュレートする仕組み。マルチエージェント合成パイプラインが解決可能性・難易度校正・文書根拠の多様性を保証した評価インスタンスを自動生成する。評価は「タスク完了率」と「フォールト注入下での堅牢性」の2軸で行い、後者では明示的エラー（タイムアウト・500エラー）・暗黙的障害（フィールド欠損・データ切り詰め）・混合障害の3種を注入。15モデル（8ファミリー）評価の主要発見は3点：①全産業で最強のモデルは存在せず各モデルが固有の職業能力プロファイルを持つ、②暗黙的障害はエラー信号がなく自律的な劣化検出が必要なため最も難しい、③モデル規模・世代・推論努力の向上が一貫して性能改善に寄与。GPT-5.2は27.5ポイント超の改善を示した。

ベンチマーク AIエージェント評価職業AI 言語世界モデル
hf-papers 3日前 3
最強AIでも多言語OCRは30スクリプト止まり——新ベンチが限界を暴露
GlotOCR Bench: OCR Models Still Struggle Beyond a Handful of Unicode Scripts

100以上のUnicodeスクリプトを網羅する大規模OCRベンチマーク「GlotOCR Bench」が公開された。ほとんどのVLMは高精度を達成できるスクリプトが10未満、最先端モデルでも30スクリプト以上への汎化に失敗。多言語対応AIの盲点を浮き彫りにし、低資源言語のデジタル化推進に向けた課題を示す。

解説本論文は、視覚言語モデル（VLM）のOCR能力を100以上のUnicodeスクリプトで体系的に評価するベンチマーク「GlotOCR Bench」を提案する。従来のOCR評価はラテン文字・漢字・アラビア文字など一部の高リソーススクリプトに偏っており、低リソース言語への汎化能力が未検証だった。ベンチマークはGoogle Fontsからのフォント、HarfBuzz（テキスト整形エンジン）、FreeType（フォントラスタライザ）を用いてLTR・RTL両方の文字画像をクリーン版と劣化版の2種類で生成し、手動確認で正確なレンダリングを保証している。GPT-4o、Gemini、Claude等の商用モデルを含む広範なオープン・クローズドモデルを評価した結果、大多数は10スクリプト未満でしか安定した性能を示さず、最も強力なフロンティアモデルでも30スクリプトが上限だった。性能はスクリプトの事前学習データ量と強く相関しており、現行OCRシステムが視覚的文字認識よりも言語モデルの事前学習知識に依存していることを示唆する。未知スクリプトに対しては「ランダムノイズを出力する」か「既知の類似スクリプトの文字を幻覚する」という2種類の失敗パターンが観察された。低リソース言語のデジタル化・アーカイブ作業や多言語文書処理の実用面で重要な課題を提起する論文である。

OCR 多言語ベンチマーク VLM 評価