大規模言語モデル、ChatGPT、未訓練医師の緊急医療におけるトリアージ性能:比較研究
カテゴリ:災害・救急医療
公開日:2025年10月23日
タイトル:Triage Performance Across Large Language Models, ChatGPT, and Untrained Doctors in Emergency Medicine: Comparative Study
雑誌名:J Med Internet Res. 2024 Jun 14; 26: e53297. doi: 10.2196/53297. Epub 2024 Jun 14.
概 要:
本研究は、大規模言語モデル(LLMs)とChatGPTが緊急科トリアージにおいて、専門的に訓練された医療スタッフや未訓練の医師と比較してどの程度の能力を持つかを評価しました。124の匿名化された症例を用いて、各グループのトリアージ能力を比較し、LLMsの応答が未訓練の医師のトリアージ能力を向上させるかどうかを探求しました。結果として、GPT-4ベースのChatGPTと未訓練医師は専門家の合意と高い一致を示しましたが、未訓練医師のトリアージ能力には有意な改善は見られませんでした。
方 法:
本研究では、124の匿名化された症例を未訓練医師、さまざまなLLMs、ChatGPT、専門的に訓練された評価者がトリアージしました。評価者はマンチェスター・トリアージ・システム(MTS)に基づいて合意を形成しました。主要評価指標は、評価者間のMTSレベルの一致度であり、二次的には過剰トリアージと過少トリアージの程度も評価しました。
結 果:
GPT-4ベースのChatGPTと未訓練医師は、専門家の合意と高い一致を示し(それぞれ平均0.67、0.68)、GPT-3.5ベースのChatGPT(平均0.54)を有意に上回りました。未訓練医師がLLMを使用した場合、わずかながらも統計的に有意ではない改善が見られました。他のLLMsは、GPT-4ベースのChatGPTと同等かそれ以下の性能を示しました。LLMsとChatGPTは過剰トリアージの傾向があり、未訓練医師は過少トリアージを行いました。
結 論:
LLMsおよびChatGPTは、専門的に訓練された評価者には及ばないものの、未訓練医師と同等のトリアージ能力を持つことが示されました。現時点では、LLMsやChatGPTは緊急科トリアージにおいて金準拠の性能を示さず、未訓練医師のトリアージ能力を有意に向上させることはできませんでした。新しいLLMバージョンの性能向上は、今後の技術開発と特定の訓練による改善の可能性を示唆しています。