マルチモーダルエージェント
要約済み 1
-
hf-papers 3日前 3ゲームAI評価ベンチマーク「GameWorld」登場、人間には遠く及ばずGameWorld: Towards Standardized and Verifiable Evaluation of Multimodal Game Agents
マルチモーダルLLMをゲームエージェントとして標準化・検証可能に評価する新ベンチマーク「GameWorld」が発表された。 ブラウザ環境の34ゲーム・170タスクで構成され、状態検証可能な指標を採用、18モデルを評価。 最高性能エージェントでも人間に大きく劣り、LLMのゲーム理解・制御能力の課題を浮き彫りにした。
解説 GameWorldは、MLLM(マルチモーダル大規模言語モデル)をゲームエージェントとして評価する標準化ベンチマークである。2種類のインターフェースを設計:①Computer-use Agent(キーボード・マウス操作を直接出力)と②Semantic Action Parsing(自然言語の行動指示を決定論的に解析する汎用型)。34種のゲームと170タスクで構成され、各タスクはゲーム内部状態を参照する検証可能な指標でアウトカムを評価するため、ヒューリスティックな採点を排除できる。GPT-4o・Claude・Geminiを含む18のモデル×インターフェース組み合わせを検証した結果、最高性能エージェントでも人間水準には大きく届かないことが判明。繰り返しフルベンチマーク実行によりスコアの安定性も確認。リアルタイム対話・コンテキストメモリ感度・行動有効性の3点が主要な課題として浮き彫りとなった。異種行動インターフェース問題を解決し、再現可能な評価基盤を提供する点で実用的意義が高い。