探索と活用
要約済み 1
-
hf-papers 3日前 3LMエージェントの失敗を定量化する新フレームワーク登場Exploration and Exploitation Errors Are Measurable for Language Model Agents
研究者らがLMエージェントの「探索」と「活用」の失敗を定量測定する新評価フレームワークを発表した。 部分観測グリッドと未知タスクDAGで構成する制御可能環境を設計し、推論型モデルが両誤差で優位と判明。 ハーネスの軽微な改良だけで大幅改善できるとの知見は、エージェント開発者に実践的な指針を提供する。
解説 本論文は、言語モデル(LM)エージェントが「探索(未知領域の調査)」と「活用(既知知識の利用)」をどれだけ適切に行えるかを体系的に評価する枠組みを提案する。従来、エージェントの内部方策へのアクセスなしにこれら2種の誤差を分離・定量化することは困難だった。著者らは、部分観測可能な2Dグリッドマップと未知の依存関係グラフ(DAG)で構成される制御可能環境を設計し、マップ生成パラメータを調整することで探索難易度・活用難易度をプログラム的に変化させる。評価指標は「方策非依存(Policy-agnostic)」設計で、エージェントの行動観測のみから誤差を算出する。GPT-4o、Claude、Geminiなど最先端モデルを評価したところ、いずれも本タスクで苦戦し、モデルごとに異なる失敗パターンが見られた。o1やo3などの推論特化モデルはより効果的にタスクを解決した。また、プロンプトや実行フロー周りの軽微なエンジニアリング改善(ハーネス最適化)だけで探索・活用の両誤差が著しく低減可能なことも示された。エージェント開発者にとっては、弱点の診断ツールとして実用的価値が高い。