MEDICINE & AI

医療教育評価における大規模言語モデルの応用 - ChatGPTを標準化患者として使用した多面的評価

カテゴリ:医学教育

公開日:2026年2月19日

タイトル:Application of Large Language Models in Medical Training Evaluation-Using ChatGPT as a Standardized Patient: Multimetric Assessment 雑誌名:J Med Internet Res. 2025 Jan 01; 27: e59435. doi: 10.2196/59435. Epub 2025 Jan 01. 概 要: 本研究は、大規模言語モデル(LLM)であるChatGPTを医療評価における標準化患者としての使用可能性と性能を探求することを目的としています。特に、歴史聴取タスクにおいて、ChatGPTが標準化患者のコスト効果の高い代替手段となる可能性を評価しました。実験は2段階に分かれ、最初の段階では炎症性腸疾患(IBD)に関する会話をシミュレーションし、応答の関連性と正確性を評価しました。次の段階では、ChatGPTの人間らしさ、臨床的正確性、適応性を基準に性能を評価しました。 方 法: 本研究は2段階の実験を実施しました。第一段階では、炎症性腸疾患に関する会話をシミュレーションし、応答を良、中、悪の3つの質のグループに分類しました。各グループは30回の実行から成り、応答の関連性をスコアリングしました。第二段階では、ChatGPTの性能を人間らしさ、臨床的正確性、適応性に基づいて評価し、応答の不足に応じてプロンプトを調整しました。合計300回の実行を行い、標準参照スコアと比較しました。 結 果: ChatGPTは標準化患者を効果的にシミュレートできることが確認され、医療問い合わせの質に応じたスコアの差が有意でした。改訂されたプロンプトにより、ChatGPTのリアリズム、臨床的正確性、適応性が大幅に向上し、スコアの不一致が減少しました。スコアの正確性は、改訂前のプロンプトに比べて4.926倍向上し、スコア差の割合は29.83%から6.06%に低下しました。 結 論: ChatGPTは医療評価における標準化患者のシミュレーションに適したツールであり、医療教育の向上に寄与する可能性があります。適切なプロンプトを組み込むことで、ChatGPTのスコアの正確性と応答のリアリズムが大幅に改善され、実際の臨床使用の可能性に近づきました。また、使用言語の影響は結果に対して有意ではありませんでした。