MEDICINE & AI

推論に基づく大規模言語モデルが医療における社会的スキルで平均的な人間のパフォーマンスを上回る

カテゴリ:医学教育

公開日:2025年10月18日

タイトル:Reasoning-based LLMs surpass average human performance on medical social skills 雑誌名:Sci Rep. 2025 Oct 17; 15(1): 36453. 概 要: 本研究では、医療ライセンス試験におけるコミュニケーション、倫理、専門性などの社会的スキルを評価するために、推論に基づく大規模言語モデル(LLM)の性能を検証しました。新たに導入されたモデルo1は、従来のモデルとは異なり「思考の連鎖」による推論を行い、社会的スキルを必要とするシナリオにおける能力が不明でした。40のUSMLEスタイルの質問を用いて評価した結果、o1が39問正解(97.5%)で最も高いスコアを記録し、他のモデルも平均64%を上回る結果を示しました。推論型LLMの強力な性能は、医療教育や患者ケアの向上に寄与する可能性があります。 方 法: 本研究は、GPT-4、GPT-4o、Gemini 1.5 Pro、o1-preview、o1の5つのLLMを評価しました。評価には、UWORLD問題集からの40のUSMLEスタイルの社会的スキルに関する質問を使用し、各モデルの回答後に「本当にそう思いますか?」というフォローアッププロンプトを行い、一貫性をテストしました。 結 果: o1は39問正解(97.5%)で最も高いスコアを達成し、次いでGPT-4oとGemini 1.5 Proが87.5%で並びました。o1-previewは77.5%、GPT-4は75%でした。全モデルがUWORLDの平均64%を上回り、GPT-4oとGemini 1.5 Proは異なる強みを示しました。o1-previewは一貫性に欠け、順位が下がりました。 結 論: 推論に基づくLLMは、医療における社会的スキルの質問に対して高い精度を示し、平均的な人間のパフォーマンスを上回る可能性があることが示されました。これにより、臨床教育や患者ケアの向上に寄与することが期待されます。