深層検索
要約済み 1
-
hf-papers 2日前 4研究者ら、100ターン超の長期視覚検索エージェントを発表Towards Long-horizon Agentic Multimodal Search
視覚情報をUIDで外部管理するLMM-Searcherが、長期マルチモーダル検索の新手法として登場。 コンテキスト爆発を回避しつつ100ターン規模の検索を実現、複数ベンチマークでオープンSOTA達成。 長文脈・マルチモーダルエージェント開発の実用化に向けた重要な進展として注目される。
解説 本論文はLMM-Searcherという長期マルチモーダル深層検索フレームワークを提案する。従来手法の最大課題は「コンテキスト爆発」だった。画像をそのままコンテキストに含めると、長い対話でトークン数が膨大になり推論が破綻する。LMM-Searcherはすべての視覚資産を外部ファイルシステムに保存し、UID(URL等の軽量テキスト識別子)でのみコンテキスト内に参照を保持する。必要な時だけfetch-imageツールで画像を呼び出す「オンデマンドローディング」方式を採用し、100ターンの長期検索を実現した。また、複雑なクロスモーダルマルチホップ推論を要するクエリを自動生成するデータ合成パイプラインを構築し、12,736件の高品質な軌跡データでQwen3-VL-30B-A3B-Thinkingをファインチューニング。さらに言語ベース検索能力を持つMiroThinker-1.7-miniとモデルマージ(重み補間)を行い能力を補完した。評価では、MM-BrowseCompで30.1、MMSearch-Plusで34.8を達成しオープンソースSOTAを更新。GPT-5やGemini-2.5-Proと比較してもアgentic search設定では競争力を持ち、同一ベースモデルでもSeed-1.8にフレームワークを適用するとMMSearch-Plusで46.7という高スコアを記録した。