放射線科ボード試験における大規模言語モデルの性能評価とその意義
カテゴリ:医学教育
公開日:2026年2月19日
タイトル:Performance Evaluation and Implications of Large Language Models in Radiology Board Exams: Prospective Comparative Analysis
雑誌名:JMIR Med Educ. 2025 Jan 16; 11: e64284. doi: 10.2196/64284. Epub 2025 Jan 16.
概 要:
本研究は、放射線科ボード試験における主流の大規模言語モデル(GPT-4、Claude、Bard、Tongyi Qianwen、Gemini Pro)の性能を評価することを目的としています。人工知能の進展により、これらのモデルは放射線教育や診断精度に大きな影響を与える可能性があります。150の選択問題を用いた比較分析を行い、各モデルの正確性を評価しました。
方 法:
放射線科ボード試験から選ばれた150の画像なしの選択問題を用いて、各モデルのテキストベースの質問に対する正確性を評価しました。モデルは認知レベルや医療専門分野に基づいて分類され、χ²検定およびANOVAを用いて分析されました。
結 果:
GPT-4は最も高い正確性(83.3%、125/150)を達成し、他のモデルを大きく上回りました。具体的には、Claudeは62%(93/150)、Bardは54.7%(82/150)、Tongyi Qianwenは70.7%(106/150)、Gemini Proは55.3%(83/150)の正確性を示しました。GPT-4に対するオッズ比は、Claudeが0.33、Bardが0.24、Gemini Proが0.25でした。Tongyi Qianwenは70.7%の正確性を示し、オッズ比は0.48でした。性能は問題の種類や専門分野によって異なり、GPT-4は低次および高次の質問の両方で優れていましたが、ClaudeとBardは複雑な診断問題に苦戦しました。
結 論:
GPT-4とTongyi Qianwenは医療教育や訓練において有望であり、放射線科のような専門分野での大規模言語モデルの効果を高めるために、ドメイン特化型のトレーニングデータセットの必要性が強調されました。