MEDICINE & AI

スウェーデンの家庭医学専門医試験における複雑な症例に対するChatGPT(GPT-4)と医師の比較研究

カテゴリ:医学教育

公開日:2026年2月19日

タイトル:ChatGPT (GPT-4) versus doctors on complex cases of the Swedish family medicine specialist examination: an observational comparative study. 雑誌名:BMJ Open. 2024 Dec 26; 14(12): e086148. 概 要: 本研究は、スウェーデンの家庭医学専門医試験における複雑な症例に対するChatGPT(GPT-4)と実際の医師のパフォーマンスを比較することを目的としています。最近のAI研究の進展により、GPTは医療に関する複数の選択肢問題において良好な結果を示していますが、自由記述式の評価に関しては未検証でした。研究では、GPT-4と医師の回答を盲目的に評価し、そのスコアを比較しました。 方 法: スウェーデンのプライマリケアの設定で行われた盲目的観察比較研究です。2017年から2022年のスウェーデン家庭医学専門医試験の匿名回答を使用し、GPT-4と医師の回答を盲目的なレビュアーが評価しました。主要評価指標は、GPT-4の回答とランダムに選ばれた医師の回答とのスコアの平均差、及びトップティアの医師の回答との比較です。 結 果: スコアは、ランダムに選ばれた医師の回答が6.0、トップティアの医師が7.2、GPT-4が4.5でした。ランダムな医師の回答はGPT-4より平均1.6ポイント高く(p<0.001)、トップティアの医師は2.7ポイント高かった(p<0.001)。GPT-4oのリリース後に実施された実験でも、ランダムな医師の回答がGPT-4oより0.7ポイント高かった(p=0.044)。 結 論: 複雑なプライマリケアの症例において、GPT-4は家庭医学専門医試験を受けた医師よりもパフォーマンスが劣ることが示されました。将来的にはGPTベースのチャットボットが改善される可能性がありますが、プライマリケアにおける医療意思決定支援のためにチャットボットを導入する前に、包括的な評価が必要です。