探索と活用

1件の記事

要約済み 1

hf-papers 3日前 3
LMエージェントの失敗を定量化する新フレームワーク登場
Exploration and Exploitation Errors Are Measurable for Language Model Agents

研究者らがLMエージェントの「探索」と「活用」の失敗を定量測定する新評価フレームワークを発表した。部分観測グリッドと未知タスクDAGで構成する制御可能環境を設計し、推論型モデルが両誤差で優位と判明。ハーネスの軽微な改良だけで大幅改善できるとの知見は、エージェント開発者に実践的な指針を提供する。

解説本論文は、言語モデル（LM）エージェントが「探索（未知領域の調査）」と「活用（既知知識の利用）」をどれだけ適切に行えるかを体系的に評価する枠組みを提案する。従来、エージェントの内部方策へのアクセスなしにこれら2種の誤差を分離・定量化することは困難だった。著者らは、部分観測可能な2Dグリッドマップと未知の依存関係グラフ（DAG）で構成される制御可能環境を設計し、マップ生成パラメータを調整することで探索難易度・活用難易度をプログラム的に変化させる。評価指標は「方策非依存（Policy-agnostic）」設計で、エージェントの行動観測のみから誤差を算出する。GPT-4o、Claude、Geminiなど最先端モデルを評価したところ、いずれも本タスクで苦戦し、モデルごとに異なる失敗パターンが見られた。o1やo3などの推論特化モデルはより効果的にタスクを解決した。また、プロンプトや実行フロー周りの軽微なエンジニアリング改善（ハーネス最適化）だけで探索・活用の両誤差が著しく低減可能なことも示された。エージェント開発者にとっては、弱点の診断ツールとして実用的価値が高い。

LMエージェント探索と活用ベンチマーク Embodied AI 評価指標