MEDICINE & AI

バーチャルケース推論とAI支援診断指導:ボディインタラクトと大規模言語モデルに基づく実証研究

カテゴリ:医学教育

公開日:2026年2月19日

タイトル:Virtual case reasoning and AI-assisted diagnostic instruction: an empirical study based on body interact and large language models. 雑誌名:BMC Med Educ. 2025 Oct 24; 25(1): 1493. doi: 10.1186/s12909-025-07872-7. Epub 2025 Oct 24. 概 要: 本研究は、大規模言語モデル(LLM)をバーチャル患者プラットフォームに統合することで、臨床推論教育に新たなアプローチを提供することを目的としています。急性期ケアシナリオにおけるBody InteractとAIモデル(ChatGPT-4およびDeepSeek-R1)の組み合わせのパフォーマンスと教育的価値を評価しました。3つの標準化されたケース(昏睡、脳卒中、外傷)をシミュレーションし、診断と治療の一貫性、臨床推論段階との整合性、教育の質を専門家の評価やAIの自己評価を用いて分析しました。 方 法: 本研究では、2人の医療研究者が昏睡、脳卒中、外傷の3つの標準化されたケースをシミュレーションしました。構造化されたケース概要を両モデルに同一のプロンプトで入力し、出力を診断および治療の一貫性、臨床推論段階との整合性、教育の質について評価しました。評価方法には専門家のスコアリング、AIの自己評価、テキストの可読性指標、Grammarly分析が含まれました。 結 果: ChatGPT-4は脳卒中シナリオで最も良好なパフォーマンスを示しましたが、昏睡および外傷ケースでは一貫性が低かったです。一方、DeepSeek-R1は全ケースでより安定した診断および治療出力を示しました。両モデルは高い専門家および自己評価スコアを得ましたが、ChatGPT-4はより可読性の高い出力を生成し、DeepSeek-R1は文法的な精度が高いことが示されました。 結 論: 本研究の結果は、ChatGPT-4とDeepSeek-R1がそれぞれAI支援教育において独自の強みを持つことを示唆しています。ChatGPT-4のアクセスしやすい言語は初学者を支援するのに適している一方、DeepSeek-R1は正式な臨床推論により適している可能性があります。特定の教育目標に基づいてモデルを選択することで、AI駆動の医療教育の効果を高めることができます。