歯科
要約済み 1
-
arxiv-cs-ai 3日前 3歯科AIの限界露呈、19モデルを比較検証Dental-TriageBench: Benchmarking Multimodal Reasoning for Hierarchical Dental Triage
歯科トリアージ初のマルチモーダル推論ベンチマーク「Dental-TriageBench」が公開された。 246件の匿名化症例に専門家の推論軌跡と階層的ラベルを付与し、19のAIモデルを評価。 複数診療科への紹介が必要な複雑症例で人間とAIの大きな性能差が判明、医療AIの課題を浮き彫りにした。
解説 本研究は歯科トリアージ(緊急度・紹介先の振り分け)をAIで自動化するための初の専門ベンチマーク「Dental-TriageBench」を提案する。実際の外来ワークフローから収集した246件の匿名化症例に対し、専門歯科医が「黄金推論軌跡(正解となる推論ステップ)」と階層的なトリアージラベルを付与した。評価対象は19の独自モデル・オープンソースモデル・医療特化MLLMで、患者の主訴テキストとOPG(パノラマX線)画像を入力とするマルチモーダルタスクとして設計されている。結果として、すべてのモデルが初期研修医(人間ベースライン)を下回り、特に複数の診療科への紹介が必要な症例では顕著な差が生じた。MLLMは紹介先を過度に絞り込む傾向(omission error)があり、安全面で深刻なリスクとなりうる。また、主訴のみまたはOPGのみを入力した場合には精度が大きく低下し、両モダリティの統合が不可欠であることも示された。本ベンチマークは医療AIの実用化における課題を具体化し、歯科領域における信頼性の高いマルチモーダルAI開発の基盤となる。