解剖学教育におけるAIの進化:現在の大規模言語モデルと歴史的なChatGPTの性能比較に基づく研究
カテゴリ:医学教育
公開日:2025年10月29日
タイトル:Evolution of AI in anatomy education study based on comparison of current large language models against historical ChatGPT performance
雑誌名:Sci Rep. 2025 Oct 28; 15(1): 37545.
概 要:
この研究は、解剖学教育における大規模言語モデル(LLMs)の性能を評価し、現在のモデルと過去のChatGPTの性能を比較することを目的としています。325のUSMLEスタイルの多肢選択問題を用いて、GPT-4o、Claude、Copilot、Geminiの4つのモデルの解剖学的知識に対する正確性を分析しました。結果は、前年のGPT-3.5の性能やランダムな回答と比較されました。現在のLLMsは平均76.8%の正確性を示し、GPT-3.5(44.4%)やランダム回答(19.4%)よりも有意に高い結果を得ました。
方 法:
本研究は、325の解剖学的トピックに関するUSMLEスタイルの多肢選択問題を用いた性能評価を行いました。4つのLLMs(GPT-4o、Claude、Copilot、Gemini)が各問題に3回挑戦し、結果を前年のGPT-3.5とランダムな回答と比較しました。統計解析にはカイ二乗検定を用い、モデル間およびトピック間の性能差を評価しました。
結 果:
現在のLLMsは平均76.8%の正確性を示し、GPT-3.5(44.4%)やランダム回答(19.4%)よりも有意に高い結果を得ました。GPT-4oは92.9%の正確性を示し、他のモデル(Claude 76.7%、Copilot 73.9%、Gemini 63.7%)を上回りました。解剖学的トピックによる性能差も顕著で、頭部と首(79.5%)および腹部(78.7%)が最も高い正確性を示しました。
結 論:
現在のLLMsは解剖学的知識の評価において過去のバージョンよりも著しく改善されており、特にGPT-4oが優れた正確性を示しました。しかし、トピック間およびモデル間の性能のばらつきは、教育的応用において慎重な考慮が必要であることを示唆しています。これらのツールは医療教育における補助資源としての可能性を持ちながらも、人間の専門知識の重要性を強調しています。