MLLM

2件の記事

要約済み 2

hf-papers 2日前 3
未知エンティティを検索で補完するセグメンテーション手法「ROSE」登場
ROSE: Retrieval-Oriented Segmentation Enhancement

研究チームがリアルタイム検索で知識を補完するセグメンテーションフレームワーク「ROSE」を発表。 MLLMが苦手とする未知・新興エンティティの認識をRAG的アプローチでプラグイン型に解決。新ベンチマーク「NEST」も合わせて公開され、今後の研究評価基盤として活用が期待される。

解説本論文はLISAなどMLLMベース画像セグメンテーションモデルが抱える「学習データに存在しない新規エンティティ」や「最新情報が必要な新興エンティティ」への対応力不足という課題に取り組む。まず評価基盤としてNEST（Novel Emerging Segmentation Task）ベンチマークをニュース記事データから自動生成パイプラインで構築した点が貢献の一つ。提案手法ROSEは4つのコンポーネントから構成される。①Internet RAGモジュールがユーザー入力をもとにリアルタイムでWeb検索を実行、②Textual Prompt Enhancerが取得テキスト情報でモデルの知識を補強、③Visual Prompt Enhancerがネット画像を活用してMLLMが未見のエンティティを視覚的に補完、④WebSenseモジュールが検索が必要かをインテリジェントに判断して無駄な検索を抑制する。既存のMLLMセグメンテーションモデルに後付け可能なプラグアンドプレイ設計のため、LISAやGPT-4o連携モデルなど幅広い基盤モデルに適用できる。実用面では、日々更新されるニュース上の人物・製品・イベントをリアルタイムで精度良くセグメンテーションできる点に意義がある。

セグメンテーション RAG MLLM マルチモーダル
hf-papers 2日前 4
新フレームワーク「UIコパイロット」、GUI自動化で大幅精度向上
UI-Copilot: Advancing Long-Horizon GUI Automation via Tool-Integrated Policy Optimization

研究チームが長期GUI操作タスクの精度を大幅に改善する協調型AIフレームワーク「UI-Copilot」を発表。 GUIエージェントと検索・計算ツールを持つ軽量コパイロットが連携し、メモリ劣化や数値幻覚を解消。 AndroidWorldベンチマークで17.1%の絶対改善を達成し、自律エージェント実用化に向け前進。

解説 UI-CopilotはMLLMベースのGUIエージェントが長期タスクで抱える3つの課題——メモリ劣化（過去の観察が忘れられる）、進捗混乱（タスクの現在地を見失う）、数値幻覚（計算ミス）——を解消する協調フレームワークである。主エージェントはタスク実行に専念し、軽量コパイロットが「Retriever（過去観察を検索）」または「Calculator（数値計算を実行）」として必要時のみ呼び出される設計となっている。メモリ分離（Memory Decoupling）により、持続的な観察記録と一時的な実行コンテキストを分離しコンテキストウィンドウの圧迫を防ぐ。学習にはTIPO（Tool-Integrated Policy Optimization）を導入し、ツール選択を単一ターン予測で、タスク実行をオンポリシーの多ターンロールアウトで別々に最適化することで効果的なツール活用を学習する。実験ではUI-Copilot-7BがMemGUI-BenchでGUI-Owl-7BやUI-TARS-1.5-7Bを上回る最高性能を達成し、実世界環境のAndroidWorldではベースモデル（Qwen）比17.1%の絶対改善を示した。GPT-4oやGeminiなどの大型モデルに対しても競争力があり、7Bスケールで実用的な長期GUI自動化を実現した点が意義深い。

GUI Agent Long-horizon Task Tool-Augmented RL MLLM