自律AIエージェント

1件の記事

要約済み 1

hf-papers 2日前 4
AI自律エージェントが数日かけてML研究を自動実行、SOTAを達成
Toward Autonomous Long-Horizon Engineering for ML Research

ML研究の論文再現・実験改善を数日間にわたり自律実行するAiScientistが提案された。 File-as-Busプロトコルで状態を永続ファイルに蓄積し、PaperBench+11点・MLE-Bench Lite 81.82%を記録。 AI研究の自動化・長時間エージェント設計に向けた重要な一歩となる成果。

解説 AiScientistは、ML論文の再現実装や競技形式の実験改善を数時間〜数日にわたり自律的に実行するシステム。設計の核心は「薄い制御・厚い状態（thin control over thick state）」：最上位のOrchestratorは簡潔なサマリとワークスペースマップだけで制御を維持し、詳細な論文解析・コード・実験ログはFile-as-Busプロトコルにより共有ファイルとして永続化する。論文理解・優先順位付け・実装・実験の各専門Tier-1エージェントが階層的に協調し、会話的な引き継ぎではなく永続的なアーティファクトを介して進捗を積み上げる。PaperBench（論文ゼロからの再現）では最良ベースライン比＋11.15ポイントの33.73点を記録し、MLPhD人間ベースライン41%に肉薄。MLE-Bench Lite（競技形式ML改善）ではAny Medal%で81.82%を達成し、AIDE・LoongFlow・ML-Master 2.0を上回る。アブレーション実験でFile-as-Busを除去するとPaperBenchで−6.41点、MLE-Bench Liteで−31.82ポイント低下し、状態継続性が長時間タスクの核心的ボトルネックであることを実証。単なる反復回数の増加ではなく、構造化されたオーケストレーションと永続状態の組み合わせが性能を決定づけると結論づけている。

自律AIエージェント ML研究自動化マルチエージェント長時間タスク