合成データ生成

1件の記事

要約済み 1

arxiv-cs-ai 2日前 3
LLMで医師間対話を合成生成、プライバシー問題を解決
SynDocDis: A Metadata-Driven Framework for Generating Synthetic Physician Discussions Using Large Language Models

研究チームがLLMを用いて医師間ディスカッションデータを合成生成するフレームワーク「SynDocDis」を発表。匿名化メタデータと構造化プロンプトで臨床的に正確な対話を生成し、医師評価で平均4.4/5を獲得。プライバシー規制で入手困難な医療対話データの不足を補い、医療AIの学習データ問題に貢献。

解説 SynDocDisは、医師同士が患者ケースを議論する「医師間ディスカッション」の合成データを生成するフレームワークである。この種の対話データは臨床知識と推論の宝庫だが、個人情報保護法（HIPAAなど）や倫理規定により実データへのアクセスが極めて困難。既存の合成データ研究は患者-医師間の対話や構造化カルテに偏っており、医師間コミュニケーションの合成は未開拓の領域だった。提案手法では、まず実際の症例記録を匿名化してメタデータ（診断名、検査値、治療経過など）を抽出し、そのメタデータをLLMへの構造化プロンプトに変換することで、個人情報を含まない現実的な医師間対話を生成する。プロンプト設計には役割設定（上級医・研修医など）や対話フロー制御が含まれ、臨床的な妥当性を担保している。評価は腫瘍学5シナリオ・肝臓学4シナリオの計9シナリオで実施され、現役医師5名がコミュニケーションの有効性（平均4.4/5）と医療内容の質の両面で高評価を付与。本論文はGPT-4oやClaudeとの直接比較は示していないが、医師評価という実用的基準を採用している点が特徴的。AIエージェントが医師間カンファレンスを補助・参加するシステムの学習データ生成に応用できる実用的意義がある。

合成データ生成医療AI 臨床対話プライバシー保護 LLM