ChatGPT-4と日本の医学研修医の一般医学における試験成績の比較
カテゴリ:医学教育
公開日:2026年2月19日
タイトル:Performance Comparison of ChatGPT-4 and Japanese Medical Residents in the General Medicine In-Training Examination: Comparison Study
雑誌名:JMIR Med Educ. 2023 Dec 06; 9: e52202. doi: 10.2196/52202. Epub 2023 Dec 06.
概 要:
本研究は、日本の医学研修医とGPT-4の基本的な臨床能力を比較することを目的とし、一般医学の研修試験(GM-ITE)を使用しました。GPT-4は、臨床推論と医学知識に特化した最先端の言語モデルであり、非英語圏での信頼性は未検証です。2020年から2022年のGM-ITE試験問題を用いて、研修医の成績とGPT-4の成績を比較しました。結果、GPT-4は研修医の平均得点を上回り、特に難易度の高い問題での得点が顕著でした。
方 法:
本研究は、OpenAIが提供するGPT-4モデルを使用し、2020年から2022年のGM-ITE試験問題を分析しました。対象は研修医2年目の個人で、単一選択式の問題に限定しました。評価は、一般理論、症状と臨床推論、身体検査と臨床手技、特定の疾患の4カテゴリーに分け、問題は7つの専門分野と3つの難易度に分類しました。
結 果:
137問のGM-ITE問題において、GPT-4の得点は研修医の平均得点(55.8%)を上回り、70.1%でした(P<.001)。特定の疾患、産婦人科、内科ではそれぞれ23.5、30.9、26.1ポイント高かった一方、医療面接や専門性に関する問題では研修医の得点が高かったものの、統計的有意差はありませんでした。難易度別では、簡単な問題でGPT-4は17.2ポイント低く、通常および難しい問題ではそれぞれ25.4、24.4ポイント高かったです(P<.001)。
結 論:
日本語においても、GPT-4はGM-ITE試験で平均的な医学研修医を上回る成績を示しました。特に、難易度の高い問題での得点が高く、病気の包括的理解を必要とする問題に強みを持つ一方で、研修医が容易に答えられる問題では相対的に低い得点を示しました。これらの結果は、医学教育や実践における人工知能の応用の強みと限界を浮き彫りにしています。