自動フィードバックを備えた言語モデル駆動のシミュレート患者による病歴聴取:前向き研究
カテゴリ:医学教育
公開日:2026年2月19日
タイトル:A Language Model-Powered Simulated Patient With Automated Feedback for History Taking: Prospective Study
雑誌名:JMIR Med Educ. 2024 Aug 16; 10: e59213. doi: 10.2196/59213. Epub 2024 Aug 16.
概 要:
本研究は、医療条件の診断において重要な病歴聴取のスキルを医学生に教えるために、GPT-4モデルを用いた自動フィードバックの効果を評価することを目的としています。リソース制約により、従来の教育方法が困難な中、AI技術の進展により、バーチャルシミュレート患者やチャットボットが教育ツールとして注目されています。医学生がGPT-4駆動のチャットボットを用いて病歴聴取を行い、そのパフォーマンスに対する構造化されたフィードバックを提供しました。
方 法:
本研究は前向き研究で、医学生がGPT-4駆動のチャットボットと病歴聴取を行う形式で実施されました。チャットボットは患者の応答をシミュレートし、学生の病歴聴取の包括性に関する即時フィードバックを提供しました。学生のインタラクションを分析し、チャットボットからのフィードバックと人間の評価者からのフィードバックを比較しました。評価者間の信頼性を測定し、フィードバックの質を評価するために記述的分析を行いました。
結 果:
参加者の大多数は医学部の3年生で、106の会話から1894の質問-回答ペアが分析に含まれました。GPT-4の役割演技と応答は99%以上のケースで医学的に妥当でした。GPT-4と人間評価者間の評価者間信頼性は「ほぼ完璧な」一致を示しました(Cohen κ=0.832)。ただし、45のフィードバックカテゴリーのうち8つでは、モデルの評価が過度に特定的または人間の判断と異なるため、合意が低い(κ<0.6)ことが確認されました。
結 論:
GPTモデルは、医学生による病歴聴取の対話に対して構造化されたフィードバックを提供する上で効果的であることが示されました。特定のフィードバックカテゴリーに関する限界が明らかになったものの、全体的に人間評価者との高い一致が示されたことから、LLMは医学教育において貴重なツールとなる可能性があります。これらの結果は、医療教育におけるAI駆動のフィードバックメカニズムの慎重な統合を支持し、その文脈でLLMを使用する際の重要な側面を強調しています。