要約
研究チームが複数のコンテキスト管理戦略を並列実行し最適選択する「AgentSwing」を発表。 BrowseCompベンチマークで既存手法を上回り、DeepSeek-v3.2がGPT-5.1・Gemini-3.0-Pro並みの性能を達成。 長期タスクをこなすWebエージェントの実用化に向け、コンテキスト管理の新標準となる可能性。
公式ソースだけを集めたAIニュースを日本語要約でお届け
AgentSwing: Adaptive Parallel Context Management Routing for Long-Horizon Web Agents
研究チームが複数のコンテキスト管理戦略を並列実行し最適選択する「AgentSwing」を発表。 BrowseCompベンチマークで既存手法を上回り、DeepSeek-v3.2がGPT-5.1・Gemini-3.0-Pro並みの性能を達成。 長期タスクをこなすWebエージェントの実用化に向け、コンテキスト管理の新標準となる可能性。
AgentSwingは、長期Webエージェントが直面する「有限コンテキスト容量」問題に取り組む新手法。既存手法が単一固定戦略(例:Discard-All=履歴全削除、Keep-Last-N=直近N件保持、Summary=要約圧縮)を軌跡全体に適用するのに対し、AgentSwingは状態適応型の並列ルーティングを採用する。具体的には、コンテキストが閾値を超えると複数の管理戦略を並列適用して候補ブランチを生成し、各ブランチをK回(最適はk=3)先行実行(ルックアヘッド)してエージェントモデル自身が最有望なブランチを選択する仕組み。この設計により「探索効率η(タスクを完了できる確率)」と「終端精度ρ(完了時に正解できる確率)」の両立を実現。BrowseComp・BrowseComp-ZH・HLE(Humanity's Last Exam)の3ベンチマークで評価し、DeepSeek-v3.2をBrowseComp-ZH 71.3・HLE 44.4まで引き上げ、Claude Opus 4.5(62.4/43.4)やGemini 3.0 Pro(66.8/45.8)を超える結果を達成。加えて、静的手法で3倍のインタラクションターン数を必要とする性能に、より少ないターンで到達できる効率性も示した。追加コスト(ルックアヘッドによるトークン消費増)は実用上軽微であり、オープンソースモデルでのデプロイに適した汎用的なテスト時スケーリング手法として実用価値が高い。