MEDICINE & AI

韓国医師国家試験における大規模言語モデルの性能評価:3年間の比較分析

カテゴリ:医学教育

公開日:2025年10月16日

タイトル:Performance evaluation of large language models on Korean medical licensing examination: a three-year comparative analysis. 雑誌名:Sci Rep. 2025 Oct 15; 15(1): 36082. 概 要: 本研究は、韓国医師国家試験(KMLE)における大規模言語モデル(LLM)の性能を評価し、特にテキストおよび画像ベースの問題に対する信頼性を検討しました。2022年から2024年までの942問のKMLE問題を分析し、GPT-4o、Claude 3.5 Sonnet、Gemini 1.5 Proの3つのモデルを比較しました。結果、GPT-4oが最も高い正確性(83.2%)を示し、次いでClaude 3.5 Sonnet(79.5%)、Gemini 1.5 Pro(76.6%)の順でした。LLMは内科、小児科、精神科での性能が最も優れていましたが、医療法に関しては比較的弱い結果を示しました。再現性は非常に高く、Claude 3.5 Sonnet、Gemini 1.5 Pro、GPT-4oはそれぞれ99.9%、99.5%、97.7%を記録しました。 方 法: 本研究は、2022年から2024年までの韓国医師国家試験の942問を対象にした比較分析です。テキストおよび画像ベースの問題を含む様々な医療専門分野からの質問を評価し、再現性は繰り返しテストを通じて評価されました。モデル間の一致はペアワイズ比較を用いて分析されました。 結 果: GPT-4oは83.2%の正確性を達成し、Claude 3.5 Sonnetは79.5%、Gemini 1.5 Proは76.6%でした。LLMは内科、小児科、精神科で最も強い性能を示し、医療法では弱い結果でした。再現性は非常に高く、Claude 3.5 Sonnet、Gemini 1.5 Pro、GPT-4oはそれぞれ99.9%、99.5%、97.7%の再現性を示しました。 結 論: LLMは非英語環境においても医療知識の評価において有能な性能を示しましたが、画像ベースの問題や専門分野においては課題が残ります。この研究は、医療教育や評価におけるLLMの将来の開発と応用に貴重な洞察を提供しますが、実際の教育環境でのさらなる検証が必要です。