MEDICINE & AI

ChatGPT 4.0の英国医療ライセンス試験(UKMLA)における能力評価:堅牢なカテゴリ分析

カテゴリ:医学教育

公開日:2026年2月19日

タイトル:Assessing ChatGPT 4.0's Capabilities in the United Kingdom Medical Licensing Examination (UKMLA): A Robust Categorical Analysis 雑誌名:Sci Rep. 2025 Apr 15; 15(1): 13031. doi: 10.1038/s41598-025-97327-2. Epub 2025 Apr 15. 概 要: 本研究は、ChatGPT-4の医療能力を英国の若手医師が期待されるレベルと比較し、その臨床実践における可能性を議論することを目的としています。191の自由に利用可能なMLAスタイルの質問を用いて、選択肢ありとなしでのGPT-4の正確性を評価しました。診断から管理に至るまでの異なる臨床プロセスを対象とした単一および多段階の質問を比較しました。結果、GPT-4は論文1で86.3%、論文2で89.6%のスコアを記録しましたが、選択肢なしでは61.5%と74.7%でした。管理に関する質問は診断に比べて有意に低い正答率を示しました。これにより、LLMは臨床シナリオを処理する能力があるものの、理解する能力には限界があることが示されました。 方 法: 本研究は、191の自由に利用可能なMLAスタイルの質問を用いた分析です。選択肢ありとなしでのGPT-4の正確性を評価し、単一および多段階の質問を比較しました。統計的有意性はカイ二乗検定を用いて評価しました。 結 果: GPT-4は論文1で86.3%、論文2で89.6%のスコアを達成しましたが、選択肢なしでは61.5%と74.7%でした。単一と多段階の質問間に有意差は見られませんでしたが、管理に関する質問は診断に比べて有意に低い正答率を示しました(p=0.015)。 結 論: GPT-4は臨床シナリオを処理する能力を持つものの、これを理解する能力には限界があることが示されました。LLMを訓練された医療従事者と共に実践に組み込むことで、リスクと利益のバランスを取ることができる可能性があります。