MEDICINE & AI

緊急医療部門における診断におけるChatGPTモデルの初期評価

カテゴリ:災害・救急医療

公開日:2025年10月23日

タイトル:Preliminary evaluation of ChatGPT model iterations in emergency department diagnostics 雑誌名:Sci Rep. 2025 Mar 26; 15(1): 10426. doi: 10.1038/s41598-025-95233-1. Epub 2025 Mar 26. 概 要: 本研究は、緊急医療部門におけるChatGPTモデルの診断性能を評価することを目的とした後ろ向き研究です。GPT-3.5、GPT-4、GPT-4o、o1シリーズを含む複数のChatGPTモデルが、30名のED患者の診断予測においてどのように機能するかを調査しました。結果、GPT-3.5は上位3つの鑑別診断に対して80.0%の高い精度を示しましたが、主要診断の特定においては47.8%と新しいモデルに劣りました。思考を明示的に求めることで、4oモデルの主要診断予測性能が向上しましたが、全体的に現在のChatGPTモデルは非典型的な症例に対しては限界があることが示されました。 方 法: この研究は、緊急医療部門の患者30名を対象にした後ろ向き研究です。診断性能は、GPT-3.5、GPT-4、GPT-4o、o1シリーズの各モデルを用いて評価されました。主要評価指標は、上位3つの鑑別診断の精度と主要診断の特定精度です。 結 果: GPT-3.5は上位3つの鑑別診断に対して80.0%の精度を示しましたが、主要診断の特定精度は47.8%でした。新しいモデルであるchatgpt-4o-latestとo1-previewは60%の精度を達成しました。思考を求めることで、4oモデルの主要診断予測が向上し、特に4o-2024-0513では45.6%から56.7%に、4o-mini-2024-07-18では54.4%から60.0%に改善されました。しかし、肺炎などの非典型的な症例では、すべてのモデルが正しい診断を予測できませんでした。 結 論: ChatGPTモデルは緊急医療部門における診断支援に一定の可能性を示しましたが、非典型的な症例に対する限界があり、さらなる改善が必要です。特に思考を求めることが性能向上に寄与することが確認されましたが、全体的な診断精度には課題が残ります。