要約
推論の各ステップをリアルタイムで評価・誘導するPRA(プロセス報酬エージェント)フレームワークを研究者が発表。 ベースモデルを凍結したまま外部知識検索と報酬付与を分離する設計で、MedQAにて80.8%の精度を記録。 小規模モデルでの医療AI応用や、未知モデルへの汎化性能が示され、効率的な推論強化手法として注目される。
公式ソースだけを集めたAIニュースを日本語要約でお届け
Process Reward Agents for Steering Knowledge-Intensive Reasoning
推論の各ステップをリアルタイムで評価・誘導するPRA(プロセス報酬エージェント)フレームワークを研究者が発表。 ベースモデルを凍結したまま外部知識検索と報酬付与を分離する設計で、MedQAにて80.8%の精度を記録。 小規模モデルでの医療AI応用や、未知モデルへの汎化性能が示され、効率的な推論強化手法として注目される。
PRA(Process Reward Agent)は、医療推論などの知識集約型タスクにおいて、凍結された推論モデル(ポリシー)の各推論ステップをリアルタイムで評価・誘導するフレームワーク。従来のプロセス報酬モデル(PRM:推論過程の各ステップに報酬を付与するモデル)が推論完了後の事後評価に留まるのに対し、PRMは生成中に外部医療文書を動的に検索し、各ステップの正否をオンラインで判定するエージェントとして機能する。ビームサーチで複数の推論経路を並列評価・刈り込みし、累積報酬が最高の経路を最終回答として選択する仕組みだ。実験ではMedQA・MedBullets等7つのベンチマークでCoT・RAG・Self-Consistencyなど全ベースラインを上回り、Qwen3-4Bを使用した場合にMedQAで80.8%(4Bスケール新SOTA)を達成。RAG+Self-Consistencyに対し平均4.1ポイント改善。訓練に使用していない0.5B〜8Bの異なるポリシーモデルにも適用でき、最大25.7%の精度向上を示した。ポリシーの再学習が不要で知識更新時はPRAのみ再訓練すれば良い点が実運用上の大きな利点となる。