MEDICINE & AI

AIチャットボットの可能性と限界:英国医療試験問題に関する比較性能研究

カテゴリ:医学教育

公開日:2026年2月19日

タイトル:AI chatbots show promise but limitations on UK medical exam questions: a comparative performance study. 雑誌名:Sci Rep. 2024 Aug 14; 14(1): 18859. 概 要: 本研究は、ChatGPTなどの大規模言語モデル(LLM)が英国の医療ライセンス試験問題に対してどの程度の性能を発揮するかを評価することを目的としています。423の模擬試験問題(外科、小児科などの分野から)を7つのLLM(ChatGPT-3.5、ChatGPT-4、Bard、Perplexity、Claude、Bing、Claude Instant)が回答しました。結果、ChatGPT 4.0が78.2%の正答率を記録し、他のモデルはそれに続きましたが、全体的にLLMには限界があり、医療教育における主な依存には改良が必要であることが示されました。 方 法: この研究は、423の英国医療試験問題を対象にした比較研究です。問題は9つの試験(MRCS、MRCPなど)から抽出され、7つのLLMが回答しました。問題は406の選択肢、13の真偽、4の「Nを選ぶ」形式で、外科や小児科などのトピックをカバーしています。出力の正確性は評価され、統計的手法を用いてLLM間の違いを分析しました。 結 果: ChatGPT 4.0は78.2%の正答率を示し、Bingが67.2%、Claudeが64.4%、Claude Instantが62.9%でした。Perplexityは最も低い56.1%でした。全体的にLLM間で有意なスコアの差があり(p < 0.001)、すべてのLLMは選択肢問題でより高いスコアを得ました。特定の質問に対する回答には限界があり、医療教育における主な依存には改良が必要であることが示されました。 結 論: LLMは医療教育において有望な可能性を示しましたが、特定の質問に対する限界も明らかになりました。今後は専門特化型LLMの開発や医療カリキュラムへの最適な統合についての研究が必要です。