基本医学試験における大規模言語モデルの精度に関連する要因:横断研究
カテゴリ:医学教育
公開日:2026年2月19日
タイトル:Factors Associated With the Accuracy of Large Language Models in Basic Medical Science Examinations: Cross-Sectional Study
雑誌名:JMIR Med Educ. 2025 Jan 13; 11: e58898. doi: 10.2196/58898. Epub 2025 Jan 13.
概 要:
本研究は、基本医学試験における大規模言語モデル(LLMs)の精度に関連する要因を評価することを目的としています。GPT-3.5、GPT-4、Google Bard、Microsoft Bingのモデルを用いて、タイの国家医療ライセンス試験に基づく選択問題に対する回答の精度を比較しました。問題の難易度や特性がモデルのパフォーマンスに与える影響を分析し、特にGPT-4が最も高い精度を示しました。
方 法:
本研究では、タイの国家医療ライセンス試験に密接に関連する問題を使用しました。問題の難易度指数、識別指数、特性を収集し、ChatGPT(GPT-3.5およびGPT-4)、Microsoft Bing、Google Bardに同時に入力しました。各モデルの回答の精度を多変量ロジスティック回帰分析を用いて評価し、結果をオッズ比(OR)として報告しました。
結 果:
GPT-4は89.07%の精度で最も優れたパフォーマンスを示し、Microsoft Bingが83.69%、GPT-3.5が67.02%、Google Bardが63.83%でした。多変量ロジスティック回帰分析では、問題の難易度とモデルのパフォーマンスに相関が見られ、特にGPT-4が強い関連を示しました。モデルの精度と問題の長さ、否定的な表現、臨床シナリオ、識別指数との間には有意な相関は見られませんでしたが、Google Bardには変動する相関がありました。
結 論:
GPT-4およびMicrosoft Bingは、基本医学の領域においてGPT-3.5およびGoogle Bardよりも高い精度を示しました。これらのモデルの精度は問題の難易度指数に大きく影響され、簡単な問題に対してより正確であることが示唆されました。したがって、GPT-4やBingのようなより正確なモデルは、基本医学の概念を理解し学ぶための有用なツールとなる可能性があります。