コードエージェントの失敗原因を自動特定するフレームワーク登場
CodeTracer: Towards Traceable Agent States
コードエージェント
デバッグ
軌跡解析
失敗локализация
SWE-bench
要約
研究チームがコードエージェントの実行軌跡から失敗箇所を自動診断する「CodeTracer」を発表。
4354件の軌跡を含むベンチマークを構築し、失敗特定でF1スコア最大48%、失敗実行の回復にも成功。
AIエージェントのデバッグ効率化と信頼性向上に向けた実用的な基盤技術として注目される。
無料登録でニュースレターを受け取る
毎週AIニュースのTop5をお届けします(無料)
無料登録 →
Proプランで深掘り分析・全アーカイブを読む
月額300円 / 年額2,400円 / Founding Member 5,000円(買い切り)
Proプランを見る →
原文を読む →
https://huggingface.co/papers/2604.11641
CodeTracerは、コードエージェント(LLMが自律的にソフトウェアリポジトリを操作するシステム)のデバッグを体系化するフレームワークである。従来の評価は最終的な成否のみを見るが、本研究はエージェントがいつ・なぜ失敗したかを追跡可能にする。
【仕組み】3段階パイプラインで構成される。①進化的抽出:異なるエージェントフレームワークのログ形式に適応するパーサーを自動生成・蓄積。②ツリーインデックス化:フラットな実行ステップを「状態変化を誘発するノード」と「探索のみのノード」に分類した階層ツリーへ変換。③診断:ツリーを走査して失敗の起点となったステージと具体的なステップを特定し、証拠セットを出力。
【実験結果】Claude Sonnet-4・GPT-5・DeepSeek-V3.2の3モデルで評価。直接プロンプト(Bare LLM)と比較してCodeTracerはF1で最大48%を達成し、ベースラインを大幅に上回る。特にツリーインデックス化が単体で18.3ptのF1向上に貢献。診断シグナルをエージェントに再投入する「反省的リプレイ」では、元の失敗実行のPass@1が一貫して改善された。
【主な知見】エージェントは正しい情報を取得しながら行動に結びつけられない「証拠-行動ギャップ」が存在する。また追加イテレーションは40ステップ程度で効果が飽和し、それ以降はバックボーンモデルの能力が律速となる。Claude Codeなど産業用エージェントは学術系より工具数が豊富で効率が高いが、並列ツール実行による順序依存問題が新たな課題となる。