高リスク医療評価におけるGPT-4oの評価:チリの麻酔学試験におけるパフォーマンスとエラー分析
カテゴリ:医学教育
公開日:2026年2月19日
タイトル:Evaluating GPT-4o in high-stakes medical assessments: performance and error analysis on a Chilean anesthesiology exam
雑誌名:BMC Med Educ. 2025 Oct 27; 25(1): 1499. doi: 10.1186/s12909-025-08084-9. Epub 2025 Oct 27.
概 要:
本研究は、GPT-4oがチリの麻酔学試験(CONACEM)においてどのように機能するかを評価し、医療分野での高リスクな状況における信頼性やエラーの問題を探ることを目的としています。183問の問題を含む試験を通じて、理解、記憶、応用、分析の4つの認知領域におけるパフォーマンスを評価しました。結果、全体の正答率は83.69%であり、特に理解(90.10%)と記憶(84.38%)の領域で高い精度を示しましたが、応用(76.83%)と分析(76.54%)では低下しました。エラー分析では、最も一般的なエラーは「根拠のない医療主張」であり、次いで「不明瞭または不正確な結論」が多く見られました。
方 法:
本研究は多段階の実験デザインを用い、チリの麻酔学試験(CONACEM)におけるGPT-4oのパフォーマンスを評価しました。試験は183問で構成され、Bloomのタキソノミーに基づく4つの認知領域をカバーしています。モデルの温度パラメータを系統的に変化させながら30回の独立したシミュレーションを実施し、生成された応答の質的エラー分析を行いました。エラーは「根拠のない医療主張」「情報の幻覚」「誤診の維持」などに分類され、2人の麻酔科医が独立して注釈を付けました。
結 果:
GPT-4oは全体で83.69%の正確性を達成しました。認知領域ごとのパフォーマンスには有意な差があり、理解(90.10%)と記憶(84.38%)で高い精度を示しましたが、応用(76.83%)と分析(76.54%)では低下しました。120件の不正解の中で、根拠のない医療主張が最も多く(40.69%)、不明瞭または不正確な結論が続きました。エラー注釈の相互評価の信頼性は高く、平均コーエンのカッパは0.73でした。
結 論:
GPT-4oは事実の記憶と理解において強みを示しましたが、高次の推論や診断判断においては根拠のない医療主張や不明瞭な結論が頻発するなどの限界が明らかになりました。これらの結果は、臨床での導入前にドメイン特異的なファインチューニングやエラー軽減戦略、知識検証メカニズムの強化が必要であることを示唆しています。