臨床意思決定
要約済み 1
-
arxiv-cs-ai 2日前 4LLM医療推論を体系化、新ベンチマークMR-Bench登場Medical Reasoning with Large Language Models: A Survey and MR-Bench
研究チームがLLMの医療推論能力を包括的にサーベイし、新ベンチマーク「MR-Bench」を提案。 臨床推論を仮説形成・演繹・帰納の反復プロセスとして概念化し、7つの技術経路に分類。 統一実験環境でのモデル比較により、医療AIの現状課題と今後の開発指針を明確化した。
解説 本論文は大規模言語モデル(LLM)の医療推論能力に関する包括的なサーベイと、新たな評価基準MR-Benchを提案する研究です。 医療分野では試験問題形式のタスクでLLMは高い性能を示しているが、実際の臨床現場では安全性・文脈依存性・エビデンスの変化への対応が求められるため、単純な事実想起では不十分です。本研究はこの問題意識から、認知科学の臨床推論理論を基盤として医療推論を「アブダクション(最善説明への推論)→演繹(規則適用)→帰納(事例から一般化)」の反復サイクルとして定式化します。 既存手法は訓練ベース(ファインチューニング、強化学習など)と訓練不要(チェーンオブソート、検索拡張生成など)の7つの技術経路に分類・整理されています。さらに統一実験設定のもとGPT-4o・Claude・Gemini等を含む代表的な医療推論モデルをクロスベンチマーク評価し、従来の比較困難だった断片的評価を体系化しています。 MR-Benchの導入により、既存ベンチマーク間の評価条件の不統一という問題を解消し、医療推論の真の実力を測る枠組みを提供する点が実用上の大きな意義です。安全性が極めて重要な医療AIの開発・展開指針として研究者・開発者双方に有用です。