Visual RAG

1件の記事

要約済み 1

hf-papers 6時間前 4
強化学習で文書RAGを強化、GPT-4oを超える性能を達成
UniDoc-RL: Coarse-to-Fine Visual RAG with Hierarchical Actions and Dense Rewards

研究チームが大規模文書の視覚的質問応答に強化学習を組み合わせた新手法「UniDoc-RL」を発表。粗から細への2段階行動選択（ページ選択→領域拡大）と密な報酬設計で効率的な文書理解を実現。マルチページ文書QAベンチマークでGPT-4oやGeminiを上回り、RAG技術の新たな方向性を示す。

解説 UniDoc-RLは、複数ページにわたる視覚的文書（PDF・スキャン文書等）への質問応答を対象に、強化学習（RL）を活用した粗から細への段階的検索手法を提案した研究である。従来のVisual RAGでは、関連ページを一度に検索するか、あるいは全ページを処理する非効率なアプローチが多く、精度と計算コストのトレードオフが課題だった。本手法は「階層的行動」として、まず文書全体からページレベルで粗い選択を行い（Coarse段階）、次にそのページ内の特定領域へズームイン・精細解析を行う（Fine段階）という2段階の行動空間を設計。RLの訓練においては密な報酬（Dense Rewards）を採用し、最終回答の正誤だけでなく中間的な検索精度にも報酬を与えることで学習安定性を高めている。実験ではDocVQA、MP-DocVQA、MMLongBench-Doc等の複数ページ文書QAベンチマークにおいて、GPT-4o・Gemini 1.5 Pro・Claude 3.5 Sonnet等の強力なベースラインを上回る性能を示した。実用上は、長大な技術文書・法的文書・財務報告書への自動QAシステムへの応用が期待される。

Visual RAG 文書理解強化学習マルチモーダル