言語世界モデル
要約済み 1
-
hf-papers 3日前 4100職業でAIエージェントを評価する新ベンチマーク「OccuBench」公開OccuBench: Evaluating AI Agents on Real-World Professional Tasks via Language World Models
実世界の100職業・65専門分野をカバーするAIエージェント評価基準「OccuBench」が公開された。 言語世界モデルでドメイン固有環境をシミュレートし、実際のツール不要で評価を実現。 15モデルを比較し、暗黙的障害が明示的エラーより検出困難なことを示す重要な知見を提供。
解説 OccuBenchは、救急トリアージや原子炉安全監視・税関処理など現実の職業100タスクを10産業・65専門分野にわたって評価する新ベンチマーク。従来の評価基盤は公開環境が存在する少数ドメインのみ対応可能だったが、本研究はLanguage World Models(LWM)という手法でこの制約を克服する。LWMはLLMがドメイン固有のツール応答を動的に生成することで、任意の職業環境を仮想的にシミュレートする仕組み。マルチエージェント合成パイプラインが解決可能性・難易度校正・文書根拠の多様性を保証した評価インスタンスを自動生成する。評価は「タスク完了率」と「フォールト注入下での堅牢性」の2軸で行い、後者では明示的エラー(タイムアウト・500エラー)・暗黙的障害(フィールド欠損・データ切り詰め)・混合障害の3種を注入。15モデル(8ファミリー)評価の主要発見は3点:①全産業で最強のモデルは存在せず各モデルが固有の職業能力プロファイルを持つ、②暗黙的障害はエラー信号がなく自律的な劣化検出が必要なため最も難しい、③モデル規模・世代・推論努力の向上が一貫して性能改善に寄与。GPT-5.2は27.5ポイント超の改善を示した。