歯科 - AIフロントライン

歯科

1件の記事

要約済み 1

arxiv-cs-ai 3日前 3
歯科AIの限界露呈、19モデルを比較検証
Dental-TriageBench: Benchmarking Multimodal Reasoning for Hierarchical Dental Triage

歯科トリアージ初のマルチモーダル推論ベンチマーク「Dental-TriageBench」が公開された。 246件の匿名化症例に専門家の推論軌跡と階層的ラベルを付与し、19のAIモデルを評価。複数診療科への紹介が必要な複雑症例で人間とAIの大きな性能差が判明、医療AIの課題を浮き彫りにした。

解説本研究は歯科トリアージ（緊急度・紹介先の振り分け）をAIで自動化するための初の専門ベンチマーク「Dental-TriageBench」を提案する。実際の外来ワークフローから収集した246件の匿名化症例に対し、専門歯科医が「黄金推論軌跡（正解となる推論ステップ）」と階層的なトリアージラベルを付与した。評価対象は19の独自モデル・オープンソースモデル・医療特化MLLMで、患者の主訴テキストとOPG（パノラマX線）画像を入力とするマルチモーダルタスクとして設計されている。結果として、すべてのモデルが初期研修医（人間ベースライン）を下回り、特に複数の診療科への紹介が必要な症例では顕著な差が生じた。MLLMは紹介先を過度に絞り込む傾向（omission error）があり、安全面で深刻なリスクとなりうる。また、主訴のみまたはOPGのみを入力した場合には精度が大きく低下し、両モダリティの統合が不可欠であることも示された。本ベンチマークは医療AIの実用化における課題を具体化し、歯科領域における信頼性の高いマルチモーダルAI開発の基盤となる。

医療AI ベンチマークマルチモーダル歯科臨床推論