MEDICINE & AI

多言語医療選択問題における大規模言語モデルの性能評価:混合方法研究

カテゴリ:医学教育

公開日:2026年3月12日

タイトル:Performance Evaluation of Large Language Models in Multilingual Medical Multiple-Choice Questions: Mixed Methods Study 雑誌名:JMIR Med Educ. 2026 Mar 05; 12: e81399. doi: 10.2196/81399. Epub 2026 Mar 05. 概 要: 本研究は、ドイツ語、フランス語、イタリア語の3言語における医療選択問題に対する大規模言語モデル(LLMs)の性能を定量的および定性的に評価することを目的としています。LLMsは医療教育において有望な応用が期待されており、特にライセンス試験において医学生と同等またはそれ以上の能力を示す可能性がありますが、言語による性能のばらつきが存在します。114の公開された選択問題を分析し、モデルの選択、プロンプト、入力言語の影響を考慮することの重要性を強調しています。 方 法: この混合方法研究では、ドイツ語、フランス語、イタリア語の114の医療選択問題を分析しました。OpenAI、Meta AI、Anthropic、DeepSeekによって開発された複数のLLMsの性能を定量的に評価し、入力言語(ドイツ語、フランス語、イタリア語)とプロンプト言語(英語対言語一致)の変化を用いて比較分析を行いました。最も性能が良かった2つのLLMsに対して、誤答の理由を説明するプロンプトを与え、その説明の定性的分析を行いました。 結 果: LLMsの医療選択問題に対する回答性能はモデルと言語によって異なり、正確性は64%から87%の間で変動しました。入力言語の影響は有意であり(P<.01)、モデルはドイツ語の問題に対して最も良い性能を示しました。英語でのプロンプトは一般的に良好な性能を引き出しましたが、トップパフォーマンスのモデルは言語一致のプロンプトでも同等の結果を示しました。定性的分析では、GPT4oとClaude-Sonnet-3.7の説明に異なる推論エラーが見られ、いくつかの説明ではトピックに関する事実の正確性があったにもかかわらず誤りが生じていました。 結 論: 本研究は、医療試験問題に対するLLMsの潜在能力を示し、モデル選択、プロンプト、入力言語の慎重な考慮が重要であることを強調しています。回答説明の分析は、医療教育における試験問題の質を向上させるためのLLMsの有用性を示していますが、言語に敏感な内容や臨床的に微妙な内容に対しては人間の監視が必要です。LLMsの医療教育への統合を信頼性のあるものとするためには、継続的な評価と透明な報告が求められます。