エージェント

hf-papers 5時間前 4

Towards Long-horizon Agentic Multimodal Search

視覚情報をUIDで外部管理するLMM-Searcherが、長期マルチモーダル検索の新手法として登場。コンテキスト爆発を回避しつつ100ターン規模の検索を実現、複数ベンチマークでオープンSOTA達成。長文脈・マルチモーダルエージェント開発の実用化に向けた重要な進展として注目される。

解説本論文はLMM-Searcherという長期マルチモーダル深層検索フレームワークを提案する。従来手法の最大課題は「コンテキスト爆発」だった。画像をそのままコンテキストに含めると、長い対話でトークン数が膨大になり推論が破綻する。LMM-Searcherはすべての視覚資産を外部ファイルシステムに保存し、UID（URL等の軽量テキスト識別子）でのみコンテキスト内に参照を保持する。必要な時だけfetch-imageツールで画像を呼び出す「オンデマンドローディング」方式を採用し、100ターンの長期検索を実現した。また、複雑なクロスモーダルマルチホップ推論を要するクエリを自動生成するデータ合成パイプラインを構築し、12,736件の高品質な軌跡データでQwen3-VL-30B-A3B-Thinkingをファインチューニング。さらに言語ベース検索能力を持つMiroThinker-1.7-miniとモデルマージ（重み補間）を行い能力を補完した。評価では、MM-BrowseCompで30.1、MMSearch-Plusで34.8を達成しオープンソースSOTAを更新。GPT-5やGemini-2.5-Proと比較してもアgentic search設定では競争力を持ち、同一ベースモデルでもSeed-1.8にフレームワークを適用するとMMSearch-Plusで46.7という高スコアを記録した。

マルチモーダルエージェント深層検索長期推論 VLM

arxiv-cs-ai 1日前 3

AIエージェントの「自己喪失」問題、複数アンカー記憶で解決へ

Persistent Identity in AI Agents: A Multi-Anchor Architecture for Resilient Memory and Continuity

コンテキスト超過時にAIエージェントが同一性を失う問題に対し、新たなアーキテクチャが提案された。人間の分散記憶を模倣したRAG+RLMハイブリッド検索により、記憶を自動ルーティングするsoul.pyを実装。エージェント開発における「連続性の欠如」という根本課題に、実用的な解法を示した点で注目される。

解説本論文はAIエージェントが抱える「破滅的忘却」問題に取り組む。現状のLLMベースエージェントはコンテキストウィンドウ（モデルが一度に処理できる文字数の上限）を超えると会話履歴が要約・切り捨てられ、過去の文脈だけでなく「自己としての連続性」まで失われると指摘する。著者らはこれを単一メモリストアへの過度な依存という設計上の欠陥と捉え、アルツハイマー病や海馬損傷などの神経科学的知見を参照する。人間の記憶は手続き記憶・エピソード記憶・感情的連続性など複数の独立したシステムに分散しているため、一部が損傷しても同一性が保たれる。この知見を基に提案するsoul.pyは、アイデンティティファイル（自己定義の固定記述）とメモリログ（経験の時系列記録）を分離した構成要素として管理し、どちらかが欠損しても他方から自己を再構成できるマルチアンカー設計を採用する。検索にはRAG（外部知識の埋め込み検索）とRLM（強化学習的メモリ選択）を組み合わせたハイブリッド方式を用い、クエリの種類に応じて最適な記憶領域へ自動ルーティングする。GPT-4oやClaudeなどの既存モデルとの直接ベンチマーク比較は示されていないが、単一コンテキスト依存の従来アーキテクチャに対する概念的優位性を論じており、長期稼働エージェント開発の設計指針として実用的示唆を持つ。

エージェント長期記憶 RAG アイデンティティオープンソース

arxiv-cs-ai 1日前 3

中国研究チーム、皮膚科診断AIエージェント「DERM-3R」を発表

DERM-3R: A Resource-Efficient Multimodal Agents Framework for Dermatologic Diagnosis and Treatment in Real-World Clinical Settings

リソース制約環境向けの皮膚科診断マルチモーダルAIフレームワーク「DERM-3R」が発表された。細粒度病変認識・多視点表現・全身的再評価の3課題を解決し、実臨床ワークフローを模倣した設計を採用。医療現場での実用的なAI診断支援への道を開く研究として注目される。

解説 DERM-3Rは皮膚疾患の診断・治療支援を目的としたリソース効率型のマルチモーダルエージェントフレームワークである。従来の西洋医学的な単一ターゲット治療の限界を補完するため、中国伝統医学（TCM）の「弁証論治（症候群に基づく個別化治療）」の概念をAIに組み込んでいる点が独自性の核心。フレームワークは3つの中核課題に分解される：(1)細粒度病変認識（病変の微細な特徴を識別）、(2)専門家レベルの病因モデリングを伴う多視点病変表現（複数の視覚・臨床情報を統合）、(3)全身的な再評価（併存疾患を含む包括的診断）。限られたデータと計算リソースで動作するよう設計されており、GPT-4oやClaude・Geminiといった大規模モデルが必要とする高コストなインフラを回避できる点が実用上重要。電子カルテの不完全性・知識の非標準化といったTCM特有の課題にも対処しており、現実の臨床環境への適用を意識した設計となっている。医療AIと伝統医学の融合という新しいアプローチとして注目されるが、実験結果の詳細が抜粋からは確認できず、ベンチマーク比較の評価は論文全文を要する。

皮膚科AI マルチモーダル伝統医学医療AI エージェント

hf-blog 3日前 3

AIエージェントが実務から自己学習、成功率74%向上

ALTK‑Evolve: On‑the‑Job Learning for AI Agents

研究チームがAIエージェントの過去実行履歴から再利用可能な原則を抽出・蓄積するフレームワーク「ALTK-Evolve」を発表。 AppWorldベンチマークの難問成功率が19.1%→33.3%と大幅に改善、長期記憶による継続的な性能向上を実証。 Claude CodeやOpenAI Codexにプラグイン形式で統合可能で、実用的なエージェント開発に即座に活用できる。

解説多くのAIエージェントは過去の経験を活かせず同じ失敗を繰り返す「永遠のインターン」問題を抱えている。ALTK-Evolveは実行トレースからガイドラインを自動抽出・統合し、意思決定時に関連知識だけを注入する仕組みで、特に複雑なタスクで大きな効果を示した。Claude CodeやCodexへのプラグイン統合が既に可能で、開発者がすぐに試せる実用性の高さが特徴。エージェント開発における記憶・学習アーキテクチャの標準手法となる可能性がある。

エージェント長期記憶自己改善 IBM Research

openai-news 22日前 4

ChatGPT、AI主導の商品検索機能を本格統合

Powering product discovery in ChatGPT

OpenAIはChatGPTにAgentic Commerce Protocolを採用した商品発見機能を統合した。商品の横並び比較やマーチャントとの直接連携など、リッチなビジュアル体験を提供。 AIエージェントがECの新たなフロントエンドとなる転換点として業界から注目される。

ChatGPT ショッピングエージェント OpenAI Eコマース

anthropic-news 4ヶ月前 5

AnthropicがOpus 4.5発表、コーディングで首位

Introducing Claude Opus 4.5

AnthropicがClaude Opus 4.5を発表、コーディング・エージェント・PC操作で世界最高性能を達成。 SWE-benchで首位、コーディング10.6%・自律作業29%向上、入力$5/出力$25per Mトークン。努力制御パラメータやマルチエージェント対応も搭載、AI開発の新標準となるか注目。

Anthropic Claude 新モデルコーディングエージェント

anthropic-engineering 7ヶ月前 4

Claude自身がツールを最適化、人間超えの精度を実現

Writing effective tools for agents — with agents

エージェント向けツール設計の5原則と、ClaudeにツールをセルフOpt.させる手法が公開された。 LLMとの「契約」として設計すべきという新視点で命名・説明文最適化を体系化。 Claude最適化ツールが人間作成を上回る精度を達成し、評価駆動開発の有効性を実証。

Anthropic エージェント MCP ツール設計プロンプトエンジニアリング

anthropic-engineering 1年前 4

Anthropic、Claudeに「think」ツールを導入し複雑推論を強化

The \"think\" tool: Enabling Claude to stop and think in complex tool use situations

Anthropicがツール使用中に明示的な思考ステップを挟む「think」ツールをClaudeに導入した。航空会社タスクで54%の精度向上、SWE-benchでも有意な性能改善を確認。エージェント型AIの信頼性向上に直結し、複雑業務への実用展開を後押しする。

Anthropic Claude エージェント推論ツール使用

要約済み 8