医療ライセンス試験および研修医試験におけるChatGPT-3.5および4.0の可能性と精度の評価:系統的レビューとメタアナリシス
カテゴリ:診断支援・画像解析
公開日:2026年2月19日
タイトル:Evaluating the Potential and Accuracy of ChatGPT-3.5 and 4.0 in Medical Licensing and In-Training Examinations: Systematic Review and Meta-Analysis
雑誌名:JMIR Med Educ. 2025 Sep 19; 11: e68070. doi: 10.2196/68070. Epub 2025 Sep 19.
概 要:
本研究は、医療ライセンス試験および研修医試験におけるChatGPT-3.5と4.0の精度と可能性を評価することを目的としています。AIは医療分野において重要な影響を与えており、ChatGPTは臨床シナリオを模擬し、コミュニケーションスキルを向上させることで医療教育を革新しています。しかし、試験の国や専門分野によるパフォーマンスのばらつきが見られるため、AIの精度に影響を与える要因を探る必要があります。
方 法:
PRISMAガイドラインに従い、2023年1月から2024年7月までに発表された研究を対象に、Scopus、PubMed、JMIR Publications、Elsevier、BMJ、Wiley Online Libraryなどのデータベースからデータを収集しました。最終的に、医療ライセンス試験におけるChatGPTの有効性を評価した53件の研究が含まれ、ChatGPT-3.5と4.0の精度を比較するための堅牢なデータセットが得られました。
結 果:
ChatGPT-4は医療ライセンス試験で81.8%の精度を達成し、ChatGPT-3.5の60.8%を上回りました。研修医試験では、ChatGPT-4が72.2%、ChatGPT-3.5が57.7%の精度を示しました。リスク比は1.36(95% CI 1.30-1.43)で、ChatGPT-4はChatGPT-3.5よりも36%正しい回答を提供する可能性が高いことが示されました。
結 論:
ChatGPT-4.0および3.5は医療教育の向上と臨床意思決定の支援において有望な結果を示していますが、効果的な医療実践に必要な包括的なスキルセットを置き換えることはできません。今後の研究は、複雑な臨床データの解釈能力を向上させ、教育資源としての信頼性を高めることに焦点を当てるべきです。