USMLE分野および臨床スキルにおけるChatGPT-4 Omniのパフォーマンス:比較分析
カテゴリ:医学教育
公開日:2026年2月19日
タイトル:ChatGPT-4 Omni Performance in USMLE Disciplines and Clinical Skills: Comparative Analysis
雑誌名:JMIR Med Educ. 2024 Nov 06; 10: e63430. doi: 10.2196/63430. Epub 2024 Nov 06.
概 要:
本研究は、ChatGPTの異なるバージョン(GPT-3.5、GPT-4、GPT-4 Omni)のUSMLE分野、臨床実習、診断および管理の臨床スキルにおける正確性を評価し比較することを目的としています。最近の研究では、ChatGPTがUSMLEを通過する能力が注目されていますが、特定の医療コンテンツ領域における詳細な分析が不足しているため、医療教育におけるその潜在的な有用性の評価が制限されています。
方 法:
本研究では、750の臨床シナリオに基づく選択肢問題を使用し、ChatGPTの各バージョン(GPT-3.5、GPT-4、GPT-4 Omni)のUSMLE分野、臨床実習、臨床スキルにおけるパフォーマンスを評価しました。正確性は標準化されたプロトコルを用いて評価され、モデルのパフォーマンスを比較するための統計分析が行われました。
結 果:
GPT-4oは750の選択肢問題において90.4%の最高正確性を達成し、GPT-4(81.1%)およびGPT-3.5(60.0%)を上回りました。GPT-4oの最高パフォーマンスは、社会科学(95.5%)、行動および神経科学(94.2%)、薬理学(93.2%)で見られました。臨床スキルにおいては、診断の正確性が92.7%、管理の正確性が88.8%であり、前のバージョンよりも大幅に向上しました。さらに、GPT-4oおよびGPT-4は、医学生の平均正確性59.3%(95% CI 58.3-60.3)を大きく上回りました。
結 論:
GPT-4oのUSMLE分野、臨床実習、臨床スキルにおけるパフォーマンスは、前のバージョンに比べて大幅な改善を示しており、医学生の教育支援としてのこの技術の使用の可能性を示唆しています。これらの結果は、医療教育にLLMを統合する際の慎重な考慮の必要性を強調しており、適切な使用を導くための構造化されたカリキュラムの重要性と、その信頼性と効果を確保するための継続的な批判的分析の必要性を示しています。