記事詳細｜基本的な救命処置シナリオにおけるGPT、Bard、Bingチャットボットの応答の正確性と信頼性の評価

基本的な救命処置シナリオにおけるGPT、Bard、Bingチャットボットの応答の正確性と信頼性の評価

カテゴリ：医学教育

公開日：2026年2月19日

タイトル：Evaluation of correctness and reliability of GPT, Bard, and Bing chatbots' responses in basic life support scenarios 雑誌名：Sci Rep. 2025 Apr 03; 15(1): 11429. 概　要：本研究は、緊急医療サービスが到着する前に基本的な救命処置（BLS）を適時に認識し、開始することが生存率と神経学的結果を大幅に改善することを背景に、AIチャットボット（GPT-3.5、GPT-4、Bard、Bing）のBLSシナリオへの応答の信頼性を調査しました。6つのシナリオを用いた横断研究を実施し、各チャットボットの応答を評価しました。GPT-4は成人シナリオで85%の正確性を示し、Bardは60%でしたが、他のチャットボットは全体的に低い成績でした。すべてのチャットボットはBLSガイドラインに一貫して従わず、実際の緊急時における使用に懸念が残ります。方　法：この研究は、6つのBLSシナリオを用いた横断研究です。シナリオは成人、小児、乳児の緊急事態をカバーし、各チャットボットに1週間の間隔で2回提示されました。応答は、テヘラン医科大学の認定救急医学教授によってBLS-OSCE基準に基づくチェックリストを用いて評価されました。正確性は評価され、信頼性はコーエンのカッパ係数を用いて測定されました。結　果： GPT-4は成人シナリオで85%の正確性を示し、Bardは60%でした。Bardは小児シナリオで52.17%の正確性を達成しましたが、すべてのチャットボットは乳児シナリオで44%未満のスコアでした。コーエンのカッパは、GPT-4（k=0.649）とGPT-3.5（k=0.645）において高い信頼性を示し、Bing（k=0.503）には中程度、Bard（k=0.357）には低い信頼性がありました。結　論： GPT-4は成人BLSシナリオにおいて最も高い正確性と信頼性を示しましたが、すべてのチャットボットは小児および乳児のケースで大きな課題を抱えていました。現状のAIチャットボットは、救命手順において人間の監督のもとでのみ信頼できるガイドとして利用可能であることが示されました。

「医学教育」の記事一覧へ

MEDICINE & AI

基本的な救命処置シナリオにおけるGPT、Bard、Bingチャットボットの応答の正確性と信頼性の評価