長期推論

hf-papers 5時間前 4

Towards Long-horizon Agentic Multimodal Search

視覚情報をUIDで外部管理するLMM-Searcherが、長期マルチモーダル検索の新手法として登場。コンテキスト爆発を回避しつつ100ターン規模の検索を実現、複数ベンチマークでオープンSOTA達成。長文脈・マルチモーダルエージェント開発の実用化に向けた重要な進展として注目される。

解説本論文はLMM-Searcherという長期マルチモーダル深層検索フレームワークを提案する。従来手法の最大課題は「コンテキスト爆発」だった。画像をそのままコンテキストに含めると、長い対話でトークン数が膨大になり推論が破綻する。LMM-Searcherはすべての視覚資産を外部ファイルシステムに保存し、UID（URL等の軽量テキスト識別子）でのみコンテキスト内に参照を保持する。必要な時だけfetch-imageツールで画像を呼び出す「オンデマンドローディング」方式を採用し、100ターンの長期検索を実現した。また、複雑なクロスモーダルマルチホップ推論を要するクエリを自動生成するデータ合成パイプラインを構築し、12,736件の高品質な軌跡データでQwen3-VL-30B-A3B-Thinkingをファインチューニング。さらに言語ベース検索能力を持つMiroThinker-1.7-miniとモデルマージ（重み補間）を行い能力を補完した。評価では、MM-BrowseCompで30.1、MMSearch-Plusで34.8を達成しオープンソースSOTAを更新。GPT-5やGemini-2.5-Proと比較してもアgentic search設定では競争力を持ち、同一ベースモデルでもSeed-1.8にフレームワークを適用するとMMSearch-Plusで46.7という高スコアを記録した。

マルチモーダルエージェント深層検索長期推論 VLM

hf-papers 1日前 4

新手法AgentSwingが長期Webエージェントの性能限界を突破

AgentSwing: Adaptive Parallel Context Management Routing for Long-Horizon Web Agents

研究チームが複数のコンテキスト管理戦略を並列実行し最適選択する「AgentSwing」を発表。 BrowseCompベンチマークで既存手法を上回り、DeepSeek-v3.2がGPT-5.1・Gemini-3.0-Pro並みの性能を達成。長期タスクをこなすWebエージェントの実用化に向け、コンテキスト管理の新標準となる可能性。

解説 AgentSwingは、長期Webエージェントが直面する「有限コンテキスト容量」問題に取り組む新手法。既存手法が単一固定戦略（例：Discard-All=履歴全削除、Keep-Last-N=直近N件保持、Summary=要約圧縮）を軌跡全体に適用するのに対し、AgentSwingは状態適応型の並列ルーティングを採用する。具体的には、コンテキストが閾値を超えると複数の管理戦略を並列適用して候補ブランチを生成し、各ブランチをK回（最適はk=3）先行実行（ルックアヘッド）してエージェントモデル自身が最有望なブランチを選択する仕組み。この設計により「探索効率η（タスクを完了できる確率）」と「終端精度ρ（完了時に正解できる確率）」の両立を実現。BrowseComp・BrowseComp-ZH・HLE（Humanity's Last Exam）の3ベンチマークで評価し、DeepSeek-v3.2をBrowseComp-ZH 71.3・HLE 44.4まで引き上げ、Claude Opus 4.5（62.4/43.4）やGemini 3.0 Pro（66.8/45.8）を超える結果を達成。加えて、静的手法で3倍のインタラクションターン数を必要とする性能に、より少ないターンで到達できる効率性も示した。追加コスト（ルックアヘッドによるトークン消費増）は実用上軽微であり、オープンソースモデルでのデプロイに適した汎用的なテスト時スケーリング手法として実用価値が高い。

Webエージェントコンテキスト管理長期推論情報探索テスト時スケーリング

hf-blog 12日前 3

AIエージェントにスタートアップ経営させるベンチマーク登場

YC-Bench: Can Your AI Agent Run a Startup Without Going Bankrupt?9 days ago•6

20万ドル・1年間のスタートアップ経営をAIに任せる「YC-Bench」が公開された。 12モデル中、資金を増やせたのはClaude Opus・GLM-5・GPT-5.4の3モデルのみ。推論と実行の乖離や持続的記憶の活用が、エージェント実用化の鍵と示した。

解説既存ベンチマークでは測れない「数百ターンにわたる戦略的一貫性」を評価する新しいベンチマーク。Claude Opus 4.6が127万ドルで首位、Sonnet 4.6は正しい戦略を導出しつつ実行できず破産するという「推論-実行ギャップ」を明確に示した。エージェント開発者にとって、長期記憶管理と敵対的入力への耐性が今後の重要課題であることを定量的に裏付ける実用的な知見を提供している。

ベンチマーク AIエージェント長期推論スタートアップシミュレーション

要約済み 3