MEDICINE & AI

GPT-4の偶発的放射線所見に対する患者指示の特定と生成能力の評価

カテゴリ:医学教育

公開日:2026年1月29日

タイトル:Evaluation of GPT-4 ability to identify and generate patient instructions for actionable incidental radiology findings. 雑誌名:J Am Med Inform Assoc. 2024 Sep 01; 31(9): 1983-1993. doi: 10.1093/jamia/ocae117. 概 要: 本研究は、HIPAA準拠のGPT-4が救急科患者の非構造化放射線報告から、フォローアップが必要な偶発的所見を特定する能力を評価し、AIが生成した患者向け要約の適切性を検討することを目的としています。大規模な学術医療センターの電子健康記録から抽出した放射線報告を手動でレビューし、「確実に対処が必要」(DA)または「臨床相関が必要な可能性がある」(PA-CC)所見に分類しました。最適化された指示プロンプトを用いて、430件の未見報告に対するGPT-4の性能を評価しました。 方 法: 放射線報告を手動でレビューし、フォローアップが必要な偶発的所見を特定しました。GPT-4に対する指示プロンプトは、50件の報告を用いて最適化され、その後430件の未見報告に適用されました。GPT-4の性能は、DAまたはPA-CC所見の特定における正確性で評価され、AI生成の患者向け要約はLikertスケールで適切性を評価されました。 結 果: 主要評価項目(DAまたはPA-CC)において、GPT-4は99.3%の再現率、73.6%の適合率、84.5%のF-1スコアを達成しました。DAのみの評価では、95.2%の再現率、77.3%の適合率、85.3%のF-1スコアを示しました。生成されたテキストには「幻覚」は見られませんでしたが、2.8%のケースでは具体的な参照なしに推測された推奨が含まれていました。AI生成の要約の大多数は、修正が不要または軽微なものでした。 結 論: GPT-4は、洗練された指示プロンプトを用いることで、対処が必要な偶発的所見を特定する能力を示しました。AI生成の患者指示は大半が適切でしたが、推測された推奨は稀でした。この技術は診断を補完する可能性を示していますが、臨床実装には「人間が介在する」ワークフローによる医師の監視が重要です。