要約
知識強化型データ合成と半教師あり強化学習を組み合わせた医療推論フレームワーク「MedSSR」が発表された。 PubMedや希少疾患DBを活用した合成データで学習し、Qwen3-8Bベースで希少疾患+5.93%、一般医療+3.91%を達成。 データ不足が課題だった医療AI分野で、希少疾患への対応力を高める実用的な突破口となる可能性がある。
公式ソースだけを集めたAIニュースを日本語要約でお届け
Eliciting Medical Reasoning with Knowledge-enhanced Data Synthesis: A Semi-Supervised Reinforcement Learning Approach
知識強化型データ合成と半教師あり強化学習を組み合わせた医療推論フレームワーク「MedSSR」が発表された。 PubMedや希少疾患DBを活用した合成データで学習し、Qwen3-8Bベースで希少疾患+5.93%、一般医療+3.91%を達成。 データ不足が課題だった医療AI分野で、希少疾患への対応力を高める実用的な突破口となる可能性がある。
MedSSRは、医療分野でのLLM(大規模言語モデル)の推論能力向上を目指した研究。最大の課題は「高品質な医療推論データの不足」、特に希少疾患に関するデータが極めて少ない点にある。
提案手法は2本柱で構成される。①知識強化型データ合成:PubMed・Wikipedia・医学教科書・Orphanetなど希少疾患DB(12,445疾患)から関連文書を検索し、合成質問を生成。希少疾患の含有率を閾値αで制御可能な設計になっている。②半教師あり強化学習(RL):合成データに対してモデル自身がG回の回答を生成し多数決で疑似ラベルを作成(オフライン投票)した後、自己教師ありRLと教師ありRLの2段階学習を実施。オンライン投票と異なりリワードハッキングや学習崩壊を防ぎ、1000ステップ以上安定した学習が可能。
実験ではQwen3-8BとLlama-3.1-8Bで検証。MedQA(+6.16%)・Medbullets(+8.36%)など主要ベンチマークで既存医療LLM(HuatuoGPT-o1-8B・MedReason-8B等)を全項目上回った。医師200名による合成データ評価でも誤り率0.5%・妥当性4.80/5.0と高品質。CoT(思考連鎖)の蒸留不要で、低コストに医療推論能力を引き出せる点が実用上の大きな意義となる。