緊急内科における意思決定支援ツールとしての大規模言語モデルと大規模推論モデルの評価
カテゴリ:手術支援
公開日:2025年10月24日
タイトル:Evaluating large language and large reasoning models as decision support tools in emergency internal medicine
雑誌名:Comput Biol Med. 2025 Jun; 192(Pt B): 110351.
概 要:
本研究は、緊急内科の現場において、大規模言語モデル(LLM)が臨床意思決定支援にどのように寄与できるかを評価しました。OpenAIの「o1」大規模推論モデル、AnthropicのClaude-3.5-Sonnet、MetaのLlama-3.2-70Bの3つのモデルを、73件の匿名化された患者ケースを用いて人間の専門家と比較しました。結果、o1モデルは人間医師と同等の評価を得た一方、他の2モデルは治療計画において誤りが多く、評価が低くなりました。
方 法:
2024年6月から9月にかけて、クロアチアのスプリット大学病院の緊急内科病棟から73件の匿名患者ケースを用いた前向き比較研究を実施しました。2人の独立した内科専門医が、モデルの識別を知らされずにLLM生成レポートを評価しました。評価は、推奨される診断検査の関連性と最終診断、治療計画、フォローアップの推奨を基に行われ、Likertスケールを用いて統計的比較を行いました。
結 果:
o1モデルは平均評価3.63で、人間医師の3.67と統計的に有意差がありませんでした(p=0.62)。Claude-3.5-Sonnet(3.38)とLlama-3.2-70B(3.23)は有意に低い評価を受けました(p<0.01)。全モデルは最終診断と患者入院決定において90%以上の精度を示し、o1モデルは異常な検査値を100%正確に分類しました。
結 論:
現実の緊急ケースにおいて、推論能力を強化したo1モデルは専門家レベルの臨床パフォーマンスを発揮し、意思決定支援ツールとしての有用性が示されました。