要約
研究チームが多ターンソフトウェアエンジニアリングタスク向けの新フレームワーク「SWE-AGILE」を発表。 スライディングウィンドウと古い推論のダイジェスト圧縮で文脈爆発を解消、Qwen3-8BでSWE-Bench Verified 24.1%を達成。 7B/8Bクラスの全ベースラインを上回り、小規模モデルでのAIエージェント実用化を後押しする成果。
公式ソースだけを集めたAIニュースを日本語要約でお届け
SWE-AGILE: A Software Agent Framework for Efficiently Managing Dynamic Reasoning Context
研究チームが多ターンソフトウェアエンジニアリングタスク向けの新フレームワーク「SWE-AGILE」を発表。 スライディングウィンドウと古い推論のダイジェスト圧縮で文脈爆発を解消、Qwen3-8BでSWE-Bench Verified 24.1%を達成。 7B/8Bクラスの全ベースラインを上回り、小規模モデルでのAIエージェント実用化を後押しする成果。
SWE-AGILEは、LLMによる自律ソフトウェアエンジニアリング(SWE)タスクにおける根本的ジレンマを解決する。従来のReActスタイル手法は深い分析(System-2推論)が不十分であり、一方で推論モデルの長いCoT履歴をそのまま保持すると「Lost-in-the-Middle」(長文脈で中間情報が埋もれる現象)が起きパフォーマンスが低下する。本手法はDynamic Reasoning Contextとして、直近Nステップの詳細推論をスライディングウィンドウで保持しつつ、古い推論を簡潔なReasoning Digest(要約)に置き換えるハイブリッド戦略を採用。訓練面では軌跡をスナップショットに分解するTrajectory Snapshot TrainingでSFT/RLの文脈整合を担保し、既存軌跡に推論を後付けするBackfilling Pipelineで少量データでの高品質SFTを実現。さらに圧縮率報酬を含むRLVRで推論深度とコンテキスト効率を同時最適化する。実験ではQwen3-8BモデルにてSWE-Bench Verified 24.1%を達成し、19.3kデータを用いたSWE-Dev(7B、23.4%)をわずか2.2k軌跡で上回った。8Bモデルながら14BのSkyRL-Agent-v0(21.6%)も超える性能を示しており、深い推論と文脈効率の両立が可能なことを実証した。