記事詳細｜臨床意思決定における生成事前学習トランスフォーマー（GPT）の評価：GPT-3.5とGPT-4の比較分析

臨床意思決定における生成事前学習トランスフォーマー（GPT）の評価：GPT-3.5とGPT-4の比較分析

カテゴリ：災害・救急医療

公開日：2025年10月23日

タイトル：Assessing Generative Pretrained Transformers (GPT) in Clinical Decision-Making: Comparative Analysis of GPT-3.5 and GPT-4 雑誌名：J Med Internet Res. 2024 Jun 27; 26: e54571. 概　要：本研究は、ChatGPT-3.5とChatGPT-4が複雑な臨床および倫理的ジレンマに対処する際のパフォーマンスを分析し、医療意思決定におけるその可能性を示すことを目的としています。176の実際の臨床質問が4人の専門医によって作成され、8人の上級医師と研修医が、正確性、関連性、明瞭性、実用性、包括性の5つのカテゴリーでGPT-3.5とGPT-4の応答を評価しました。方　法：この研究は、4人の専門医が176の臨床質問を作成し、8人の上級医師と研修医がGPT-3.5とGPT-4の応答を1-5のスケールで評価しました。評価は内科、救急医学、倫理の分野で行われ、上級医師と研修医の評価を比較しました。結　果：両モデルは高い平均スコアを得ました（GPT-4：4.4、SD 0.8、GPT-3.5：4.1、SD 1.0）。GPT-4はすべての評価基準でGPT-3.5を上回り、上級医師は両モデルに対して常に高い評価をしました。倫理的な質問は両モデルで最高の評価を受け、GPT-4は特に包括性において高いスコアを示しました。結　論： ChatGPTは医師の医療問題への支援において有望であり、診断や治療、倫理の向上に寄与する可能性があります。臨床業務への統合は価値があるものの、人間の専門知識を補完するものでなければなりません。安全で効果的な実装を確保するためには、さらなる研究が必要です。

「災害・救急医療」の記事一覧へ

MEDICINE & AI

臨床意思決定における生成事前学習トランスフォーマー（GPT）の評価：GPT-3.5とGPT-4の比較分析