LoRAアダプタ
要約済み 1
-
hf-papers 4日前 4新手法TRACEで失敗軌跡からエージェントを自動強化TRACE: Capability-Targeted Agentic Training
LLMエージェントの失敗パターンを解析し、不足能力を自動特定して強化する新手法「TRACE」が発表された。 能力別に生成した合成訓練環境でLoRAアダプタをRL学習し、推論時に最適なアダプタへルーティングする設計を採用。 既存手法を大幅に上回る性能を実現し、エージェントの弱点克服を自動化する実用的アプローチとして注目される。
解説 TRACEは、エージェント環境でのLLMの自己改善を自動化するエンドツーエンドシステムである。従来手法の課題として、合成訓練データがモデルの実際の能力欠如を反映していない点や、ターゲット環境で直接学習する際に能力を暗黙的にしか習得できない点があった。TRACEはまず成功・失敗の軌跡を対比し、タスク解決に必要な「ケイパビリティ(特定のアクション群)」のうち欠如しているものを自動同定する。次に各欠如ケイパビリティに対して、その能力の発揮を報酬とする合成訓練環境を生成し、LoRAアダプタをRLでファインチューニングする。推論時には入力タスクに応じて適切なアダプタへルーティングする。実験ではカスタマーサービスタスクのτ²-benchでベースエージェント比+14.1点、ツール利用のToolSandboxでは完全解答数+7を達成。最強ベースライン比でも+7.4点・+4スコアを上回り、同じロールアウト数ではGRPOより+9.2点、GEPAより+7.4点と効率的にスケールすることが示された。能力欠如の自動診断と特化アダプタの組み合わせにより、汎用的なRL学習より精度よく弱点を補強できる点が実用上の大きな意義である。