ChatGPT(GPT-4)が救急科医を診断精度で上回る:後ろ向き分析
カテゴリ:災害・救急医療
公開日:2025年10月23日
タイトル:ChatGPT With GPT-4 Outperforms Emergency Department Physicians in Diagnostic Accuracy: Retrospective Analysis
雑誌名:J Med Internet Res. 2024 Jul 08; 26: e56110. doi: 10.2196/56110. Epub 2024 Jul 08.
概 要:
本研究は、救急科におけるChatGPTの診断精度を評価し、GPT-3.5およびGPT-4と救急科の研修医との比較を行いました。100人の成人患者を対象に、診断精度を最終的な入院診断と比較し、AIの診断能力が医療現場での支援ツールとしての可能性を示すことを目的としています。結果として、GPT-4は診断精度において研修医やGPT-3.5を上回ることが示されました。
方 法:
2023年1月に内科的問題で救急科に入院した100人の成人患者を対象に、ED研修医とChatGPT(GPT-3.5およびGPT-4)の診断を最終的な入院診断と比較しました。診断精度はポイントシステムを用いて評価されました。
結 果:
中央値72歳(IQR 58.5-82.0)の患者100人が登録され、GPT-4は内科的緊急事態において、GPT-3.5(P<.001)およびED研修医(P=.01)を上回る診断精度を示しました。特に心血管疾患(GPT-4対ED医師:P=.03)や内分泌・消化器疾患(GPT-4対GPT-3.5:P=.01)において顕著な優位性が見られましたが、他のカテゴリーでは統計的有意差はありませんでした。
結 論:
この研究は、GPT-3.5、GPT-4、ED研修医の診断精度を入院診断の金標準と比較した結果、GPT-4が研修医およびその前のバージョンであるGPT-3.5を上回ることを示しました。後ろ向きデザインと限られたサンプルサイズにもかかわらず、AIが救急科における支援診断ツールとしての可能性を示唆しています。