サーベイ
要約済み 2
-
hf-papers 1日前 4LLM強化学習のクレジット割り当て、47手法を体系化したサーベイ登場From Reasoning to Agentic: Credit Assignment in Reinforcement Learning for Large Language Models
LLMの強化学習で「どの行動が結果に貢献したか」を特定するクレジット割り当て問題を包括的に調査したサーベイ論文が公開された。 推論RL(最大3万トークン)とエージェントRL(100万トークン超)の2設定を分析し、47手法をトークン/ステップ/ターン粒度×手法論の2次元で分類。 実務者向けの手法選択ガイドも提供しており、LLMエージェント開発の信頼性・効率向上に貢献する。
解説 本論文は、大規模言語モデル(LLM)の強化学習における「クレジット割り当て(Credit Assignment)」問題を包括的に調査したサーベイ論文である。クレジット割り当てとは、長い行動系列のうちどのステップが最終的な報酬に貢献したかを特定する問題で、スパースな報酬設定で特に困難になる。 著者らは47の手法を「割り当て粒度(トークン・セグメント・ステップ・ターン・マルチエージェント)」と「方法論(モンテカルロ・TD・モデルベース・ゲーム理論・情報理論)」の2次元で分類した。 代表的手法としてはVinePPO(MC法でトークンレベルの価値を推定しGSM8K等でPPOを大幅に上回る)、SPRO(ステップを除いた場合の性能差でクレジットを計算しGRPO比3.4倍の学習効率)、GiGPO(グループ内グループのアドバンテージ計算でALFWorldにて+12%)などが紹介されている。 エージェントRL特有の課題として、確率的環境・部分観測・100ターン超の長いホライズン・異種アクション・検証困難な中間状態が挙げられており、これらがReasoningRL手法の直接適用を困難にしている点を明示。2026年3月に独立して3本の事後分析(ヒンドサイト)系手法が同時発表された点は分野の収束を示す重要なシグナルとして指摘されている。実務者向けの手法選択デシジョンツリーやベンチマークプロトコルも提供されており、実用性が高い。 -
arxiv-cs-ai 2日前 4LLM医療推論を体系化、新ベンチマークMR-Bench登場Medical Reasoning with Large Language Models: A Survey and MR-Bench
研究チームがLLMの医療推論能力を包括的にサーベイし、新ベンチマーク「MR-Bench」を提案。 臨床推論を仮説形成・演繹・帰納の反復プロセスとして概念化し、7つの技術経路に分類。 統一実験環境でのモデル比較により、医療AIの現状課題と今後の開発指針を明確化した。
解説 本論文は大規模言語モデル(LLM)の医療推論能力に関する包括的なサーベイと、新たな評価基準MR-Benchを提案する研究です。 医療分野では試験問題形式のタスクでLLMは高い性能を示しているが、実際の臨床現場では安全性・文脈依存性・エビデンスの変化への対応が求められるため、単純な事実想起では不十分です。本研究はこの問題意識から、認知科学の臨床推論理論を基盤として医療推論を「アブダクション(最善説明への推論)→演繹(規則適用)→帰納(事例から一般化)」の反復サイクルとして定式化します。 既存手法は訓練ベース(ファインチューニング、強化学習など)と訓練不要(チェーンオブソート、検索拡張生成など)の7つの技術経路に分類・整理されています。さらに統一実験設定のもとGPT-4o・Claude・Gemini等を含む代表的な医療推論モデルをクロスベンチマーク評価し、従来の比較困難だった断片的評価を体系化しています。 MR-Benchの導入により、既存ベンチマーク間の評価条件の不統一という問題を解消し、医療推論の真の実力を測る枠組みを提供する点が実用上の大きな意義です。安全性が極めて重要な医療AIの開発・展開指針として研究者・開発者双方に有用です。