MEDICINE & AI

神経放射線学の症例における大規模言語モデルの診断精度評価

カテゴリ:診断支援・画像解析

公開日:2026年2月19日

タイトル:Evaluating diagnostic accuracy of large language models in neuroradiology cases using image inputs from JAMA neurology and JAMA clinical challenges. 雑誌名:Sci Rep. 2025 Nov 27; 15(1): 43027. 概 要: 本研究は、JAMA NeurologyおよびJAMAからの複雑な神経学的症例に対する6つの大規模言語モデル(LLM)の診断性能を評価しました。対象は2015年5月から2024年4月までの56の放射線学的症例で、テキストを再構成し、選択肢をシャッフルしました。各LLMは、元のクイズと画像、再構成されたテキストと画像、再構成されたテキストのみ、画像のみの4種類の入力を処理しました。モデルの性能は3人の神経放射線医と比較され、5回の繰り返しでの一貫性はFleissのカッパを用いて評価されました。LLMは、画像のみの条件で特定の質問に対する正確性を評価されました。Claude 3.5は、元の画像とテキスト入力で最高の正確性(80.4%)を達成しました。 方 法: この研究は、56の放射線学的症例を対象にした比較研究です。各LLMは、元のクイズと画像、再構成されたテキストと画像、再構成されたテキストのみ、画像のみの4種類の入力を処理しました。モデルの性能は、3人の神経放射線医と比較され、5回の繰り返しでの一貫性をFleissのカッパで評価しました。 結 果: Claude 3.5は、元の画像とテキスト入力で80.4%の正確性を示しました。再構成されたクイズテキストと画像を用いた場合の正確性は62.5%から76.8%で、再構成されたクイズテキストのみでは51.8%から76.8%でした。LLMは初年度のフェロー(71.4%)と同等の性能を示しましたが、ジュニア教員(51.8%)や2年目のフェロー(48.2%)を上回りました。画像のみのタスクでは、病理学的な位置の特定におけるLLMの正確性は21.5%から63.1%でした。 結 論: LLMは臨床テキストに対して強い診断性能を示しましたが、複雑な放射線画像を独立して解釈する能力には限界があります。これらのモデルが放射線学的ワークフローに完全に統合されるためには、画像分析のさらなる改良が必要です。