コンテキスト管理

2件の記事

要約済み 2

hf-papers 1日前 4
SWEエージェントの推論文脈を動的管理、7B規模で最高性能
SWE-AGILE: A Software Agent Framework for Efficiently Managing Dynamic Reasoning Context

研究チームが多ターンソフトウェアエンジニアリングタスク向けの新フレームワーク「SWE-AGILE」を発表。スライディングウィンドウと古い推論のダイジェスト圧縮で文脈爆発を解消、Qwen3-8BでSWE-Bench Verified 24.1%を達成。 7B/8Bクラスの全ベースラインを上回り、小規模モデルでのAIエージェント実用化を後押しする成果。

解説 SWE-AGILEは、LLMによる自律ソフトウェアエンジニアリング（SWE）タスクにおける根本的ジレンマを解決する。従来のReActスタイル手法は深い分析（System-2推論）が不十分であり、一方で推論モデルの長いCoT履歴をそのまま保持すると「Lost-in-the-Middle」（長文脈で中間情報が埋もれる現象）が起きパフォーマンスが低下する。本手法はDynamic Reasoning Contextとして、直近Nステップの詳細推論をスライディングウィンドウで保持しつつ、古い推論を簡潔なReasoning Digest（要約）に置き換えるハイブリッド戦略を採用。訓練面では軌跡をスナップショットに分解するTrajectory Snapshot TrainingでSFT/RLの文脈整合を担保し、既存軌跡に推論を後付けするBackfilling Pipelineで少量データでの高品質SFTを実現。さらに圧縮率報酬を含むRLVRで推論深度とコンテキスト効率を同時最適化する。実験ではQwen3-8BモデルにてSWE-Bench Verified 24.1%を達成し、19.3kデータを用いたSWE-Dev（7B、23.4%）をわずか2.2k軌跡で上回った。8Bモデルながら14BのSkyRL-Agent-v0（21.6%）も超える性能を示しており、深い推論と文脈効率の両立が可能なことを実証した。

SWEエージェントコンテキスト管理強化学習推論効率化
hf-papers 1日前 4
新手法AgentSwingが長期Webエージェントの性能限界を突破
AgentSwing: Adaptive Parallel Context Management Routing for Long-Horizon Web Agents

研究チームが複数のコンテキスト管理戦略を並列実行し最適選択する「AgentSwing」を発表。 BrowseCompベンチマークで既存手法を上回り、DeepSeek-v3.2がGPT-5.1・Gemini-3.0-Pro並みの性能を達成。長期タスクをこなすWebエージェントの実用化に向け、コンテキスト管理の新標準となる可能性。

解説 AgentSwingは、長期Webエージェントが直面する「有限コンテキスト容量」問題に取り組む新手法。既存手法が単一固定戦略（例：Discard-All=履歴全削除、Keep-Last-N=直近N件保持、Summary=要約圧縮）を軌跡全体に適用するのに対し、AgentSwingは状態適応型の並列ルーティングを採用する。具体的には、コンテキストが閾値を超えると複数の管理戦略を並列適用して候補ブランチを生成し、各ブランチをK回（最適はk=3）先行実行（ルックアヘッド）してエージェントモデル自身が最有望なブランチを選択する仕組み。この設計により「探索効率η（タスクを完了できる確率）」と「終端精度ρ（完了時に正解できる確率）」の両立を実現。BrowseComp・BrowseComp-ZH・HLE（Humanity's Last Exam）の3ベンチマークで評価し、DeepSeek-v3.2をBrowseComp-ZH 71.3・HLE 44.4まで引き上げ、Claude Opus 4.5（62.4/43.4）やGemini 3.0 Pro（66.8/45.8）を超える結果を達成。加えて、静的手法で3倍のインタラクションターン数を必要とする性能に、より少ないターンで到達できる効率性も示した。追加コスト（ルックアヘッドによるトークン消費増）は実用上軽微であり、オープンソースモデルでのデプロイに適した汎用的なテスト時スケーリング手法として実用価値が高い。

Webエージェントコンテキスト管理長期推論情報探索テスト時スケーリング