MEDICINE & AI

ChatGPTのモデル進化とシステム役割が中国医師国家試験におけるパフォーマンスに与える影響:比較研究

カテゴリ:医学教育

公開日:2026年2月19日

タイトル:Influence of Model Evolution and System Roles on ChatGPT's Performance in Chinese Medical Licensing Exams: Comparative Study 雑誌名:JMIR Med Educ. 2024 Aug 13; 10: e52784. doi: 10.2196/52784. Epub 2024 Aug 13. 概 要: 本研究は、ChatGPTの臨床パフォーマンスを評価し、中国医師国家試験(CNMLE)におけるその正確性と信頼性に焦点を当てています。500問の選択問題を用い、GPT-3.5とGPT-4.0のバージョン、医療専門分野に応じたシステム役割の指定、回答の一貫性を考慮しながら、各質問を8~12回テストしました。GPT-4.0は72.7%の合格率を達成し、GPT-3.5の54%を大きく上回りました。システム役割の追加は、モデルの信頼性と回答の一貫性をわずかに向上させる結果となりました。 方 法: この研究は、2022年のCNMLEの500問の選択問題を15の医療専門分野に再分類し、2023年4月24日から5月15日までの間にOpenAIプラットフォームでテストしました。合格基準は60%とし、カイ二乗検定とカッパ値を用いてモデルの正確性と一貫性を評価しました。 結 果: GPT-4.0は72.7%の合格率を達成し、GPT-3.5の54%を有意に上回りました。GPT-4.0の繰り返し応答の変動率は9%で、GPT-3.5の19.5%よりも低かったです。システム役割の追加は、両モデルの正確性をわずかに向上させ、変動性を減少させました。GPT-4.0は15の専門分野のうち14で合格基準を超えましたが、GPT-3.5は7分野でのみ達成しました。 結 論: GPT-4.0はCNMLEに合格し、正確性、一貫性、専門知識においてGPT-3.5を上回る結果を示しました。システム役割の追加はモデルの信頼性と回答の一貫性をわずかに向上させるにとどまりました。GPT-4.0は医療教育や臨床実践において有望な可能性を示しており、さらなる研究が求められます。