MEDICINE & AI

ChatGPT(GPT-4)が救急科医を診断精度で上回る:後ろ向き分析

カテゴリ:災害・救急医療

公開日:2025年10月23日

タイトル:ChatGPT With GPT-4 Outperforms Emergency Department Physicians in Diagnostic Accuracy: Retrospective Analysis 雑誌名:J Med Internet Res. 2024 Jul 08; 26: e56110. doi: 10.2196/56110. Epub 2024 Jul 08. 概 要: 本研究は、救急科におけるChatGPTの診断精度を評価し、GPT-3.5およびGPT-4と救急科の研修医との比較を行いました。100人の成人患者を対象に、診断精度を最終的な入院診断と比較し、AIの診断能力が医療現場での支援ツールとしての可能性を示すことを目的としています。結果として、GPT-4は診断精度において研修医やGPT-3.5を上回ることが示されました。 方 法: 2023年1月に内科的問題で救急科に入院した100人の成人患者を対象に、ED研修医とChatGPT(GPT-3.5およびGPT-4)の診断を最終的な入院診断と比較しました。診断精度はポイントシステムを用いて評価されました。 結 果: 中央値72歳(IQR 58.5-82.0)の患者100人が登録され、GPT-4は内科的緊急事態において、GPT-3.5(P<.001)およびED研修医(P=.01)を上回る診断精度を示しました。特に心血管疾患(GPT-4対ED医師:P=.03)や内分泌・消化器疾患(GPT-4対GPT-3.5:P=.01)において顕著な優位性が見られましたが、他のカテゴリーでは統計的有意差はありませんでした。 結 論: この研究は、GPT-3.5、GPT-4、ED研修医の診断精度を入院診断の金標準と比較した結果、GPT-4が研修医およびその前のバージョンであるGPT-3.5を上回ることを示しました。後ろ向きデザインと限られたサンプルサイズにもかかわらず、AIが救急科における支援診断ツールとしての可能性を示唆しています。