深層検索

1件の記事

要約済み 1

hf-papers 2日前 4
研究者ら、100ターン超の長期視覚検索エージェントを発表
Towards Long-horizon Agentic Multimodal Search

視覚情報をUIDで外部管理するLMM-Searcherが、長期マルチモーダル検索の新手法として登場。コンテキスト爆発を回避しつつ100ターン規模の検索を実現、複数ベンチマークでオープンSOTA達成。長文脈・マルチモーダルエージェント開発の実用化に向けた重要な進展として注目される。

解説本論文はLMM-Searcherという長期マルチモーダル深層検索フレームワークを提案する。従来手法の最大課題は「コンテキスト爆発」だった。画像をそのままコンテキストに含めると、長い対話でトークン数が膨大になり推論が破綻する。LMM-Searcherはすべての視覚資産を外部ファイルシステムに保存し、UID（URL等の軽量テキスト識別子）でのみコンテキスト内に参照を保持する。必要な時だけfetch-imageツールで画像を呼び出す「オンデマンドローディング」方式を採用し、100ターンの長期検索を実現した。また、複雑なクロスモーダルマルチホップ推論を要するクエリを自動生成するデータ合成パイプラインを構築し、12,736件の高品質な軌跡データでQwen3-VL-30B-A3B-Thinkingをファインチューニング。さらに言語ベース検索能力を持つMiroThinker-1.7-miniとモデルマージ（重み補間）を行い能力を補完した。評価では、MM-BrowseCompで30.1、MMSearch-Plusで34.8を達成しオープンソースSOTAを更新。GPT-5やGemini-2.5-Proと比較してもアgentic search設定では競争力を持ち、同一ベースモデルでもSeed-1.8にフレームワークを適用するとMMSearch-Plusで46.7という高スコアを記録した。

マルチモーダルエージェント深層検索長期推論 VLM