インドの国家プレメディカル試験における大規模言語モデルの評価:GPT-3.5、GPT-4、およびBardの比較分析
カテゴリ:医学教育
公開日:2026年2月19日
タイトル:Evaluating Large Language Models for the National Premedical Exam in India: Comparative Analysis of GPT-3.5, GPT-4, and Bard
雑誌名:JMIR Med Educ. 2024 Feb 21; 10: e51523. doi: 10.2196/51523. Epub 2024 Feb 21.
概 要:
本研究は、インドの国家適格試験(NEET)におけるGPT-3.5、GPT-4、Bardのパフォーマンスを比較評価することを目的としています。大規模言語モデル(LLMs)は、自然言語処理の分野で革命をもたらし、学術界や産業界での応用が進んでいます。学生はこれらのモデルを活用して学習体験を向上させ、高難度の試験に備えています。研究では、各モデルにNEET-2023の問題を提示し、公式の解答キーと比較しました。
方 法:
本研究では、GPT-3.5、GPT-4、Google Bardの3つの主流LLMのパフォーマンスを評価しました。NEETの問題を各モデルに提供し、得られた回答を公式の解答と比較して、各モデルの性能を評価しました。
結 果:
GPT-4は300点(700点中、42.9%)を獲得し、試験に合格しました。GPT-3.5は145点(700点中、20.7%)で合格基準を満たしましたが、Bardは115点(700点中、16.4%)で不合格でした。GPT-4は物理学で73%(29/40)、化学で44%(16/36)、生物学で51%(50/99)の正確性を示しました。GPT-3.5は物理学で45%(18/40)、化学で33%(13/26)、生物学で34%(34/99)でした。全モデルの一致した回答の正確性は0.59に達しました。
結 論:
GPT-4は最も正確なモデルとして浮上し、教育的応用の可能性を示しました。モデル間の回答をクロスチェックすることで混乱が生じる可能性がありますが、GPT-4を含む場合は高い正確性が得られます。LLMsは高難度試験に適しており、教育においてポジティブな影響を与えることが示されました。この研究は、教育タスクにおけるLLMsのパフォーマンスを評価・向上させるための基準を確立しました。