合成データ生成
要約済み 1
-
arxiv-cs-ai 2日前 3LLMで医師間対話を合成生成、プライバシー問題を解決SynDocDis: A Metadata-Driven Framework for Generating Synthetic Physician Discussions Using Large Language Models
研究チームがLLMを用いて医師間ディスカッションデータを合成生成するフレームワーク「SynDocDis」を発表。 匿名化メタデータと構造化プロンプトで臨床的に正確な対話を生成し、医師評価で平均4.4/5を獲得。 プライバシー規制で入手困難な医療対話データの不足を補い、医療AIの学習データ問題に貢献。
解説 SynDocDisは、医師同士が患者ケースを議論する「医師間ディスカッション」の合成データを生成するフレームワークである。この種の対話データは臨床知識と推論の宝庫だが、個人情報保護法(HIPAAなど)や倫理規定により実データへのアクセスが極めて困難。既存の合成データ研究は患者-医師間の対話や構造化カルテに偏っており、医師間コミュニケーションの合成は未開拓の領域だった。 提案手法では、まず実際の症例記録を匿名化してメタデータ(診断名、検査値、治療経過など)を抽出し、そのメタデータをLLMへの構造化プロンプトに変換することで、個人情報を含まない現実的な医師間対話を生成する。プロンプト設計には役割設定(上級医・研修医など)や対話フロー制御が含まれ、臨床的な妥当性を担保している。 評価は腫瘍学5シナリオ・肝臓学4シナリオの計9シナリオで実施され、現役医師5名がコミュニケーションの有効性(平均4.4/5)と医療内容の質の両面で高評価を付与。本論文はGPT-4oやClaudeとの直接比較は示していないが、医師評価という実用的基準を採用している点が特徴的。AIエージェントが医師間カンファレンスを補助・参加するシステムの学習データ生成に応用できる実用的意義がある。