MEDICINE & AI

臨床意思決定における生成事前学習トランスフォーマー(GPT)の評価:GPT-3.5とGPT-4の比較分析

カテゴリ:災害・救急医療

公開日:2025年10月23日

タイトル:Assessing Generative Pretrained Transformers (GPT) in Clinical Decision-Making: Comparative Analysis of GPT-3.5 and GPT-4 雑誌名:J Med Internet Res. 2024 Jun 27; 26: e54571. 概 要: 本研究は、ChatGPT-3.5とChatGPT-4が複雑な臨床および倫理的ジレンマに対処する際のパフォーマンスを分析し、医療意思決定におけるその可能性を示すことを目的としています。176の実際の臨床質問が4人の専門医によって作成され、8人の上級医師と研修医が、正確性、関連性、明瞭性、実用性、包括性の5つのカテゴリーでGPT-3.5とGPT-4の応答を評価しました。 方 法: この研究は、4人の専門医が176の臨床質問を作成し、8人の上級医師と研修医がGPT-3.5とGPT-4の応答を1-5のスケールで評価しました。評価は内科、救急医学、倫理の分野で行われ、上級医師と研修医の評価を比較しました。 結 果: 両モデルは高い平均スコアを得ました(GPT-4:4.4、SD 0.8、GPT-3.5:4.1、SD 1.0)。GPT-4はすべての評価基準でGPT-3.5を上回り、上級医師は両モデルに対して常に高い評価をしました。倫理的な質問は両モデルで最高の評価を受け、GPT-4は特に包括性において高いスコアを示しました。 結 論: ChatGPTは医師の医療問題への支援において有望であり、診断や治療、倫理の向上に寄与する可能性があります。臨床業務への統合は価値があるものの、人間の専門知識を補完するものでなければなりません。安全で効果的な実装を確保するためには、さらなる研究が必要です。