記事詳細｜神経放射線学の症例における大規模言語モデルの診断精度評価

神経放射線学の症例における大規模言語モデルの診断精度評価

カテゴリ：診断支援・画像解析

公開日：2026年2月19日

タイトル：Evaluating diagnostic accuracy of large language models in neuroradiology cases using image inputs from JAMA neurology and JAMA clinical challenges. 雑誌名：Sci Rep. 2025 Nov 27; 15(1): 43027. 概　要：本研究は、JAMA NeurologyおよびJAMAからの複雑な神経学的症例に対する6つの大規模言語モデル（LLM）の診断性能を評価しました。対象は2015年5月から2024年4月までの56の放射線学的症例で、テキストを再構成し、選択肢をシャッフルしました。各LLMは、元のクイズと画像、再構成されたテキストと画像、再構成されたテキストのみ、画像のみの4種類の入力を処理しました。モデルの性能は3人の神経放射線医と比較され、5回の繰り返しでの一貫性はFleissのカッパを用いて評価されました。LLMは、画像のみの条件で特定の質問に対する正確性を評価されました。Claude 3.5は、元の画像とテキスト入力で最高の正確性（80.4%）を達成しました。方　法：この研究は、56の放射線学的症例を対象にした比較研究です。各LLMは、元のクイズと画像、再構成されたテキストと画像、再構成されたテキストのみ、画像のみの4種類の入力を処理しました。モデルの性能は、3人の神経放射線医と比較され、5回の繰り返しでの一貫性をFleissのカッパで評価しました。結　果： Claude 3.5は、元の画像とテキスト入力で80.4%の正確性を示しました。再構成されたクイズテキストと画像を用いた場合の正確性は62.5%から76.8%で、再構成されたクイズテキストのみでは51.8%から76.8%でした。LLMは初年度のフェロー（71.4%）と同等の性能を示しましたが、ジュニア教員（51.8%）や2年目のフェロー（48.2%）を上回りました。画像のみのタスクでは、病理学的な位置の特定におけるLLMの正確性は21.5%から63.1%でした。結　論： LLMは臨床テキストに対して強い診断性能を示しましたが、複雑な放射線画像を独立して解釈する能力には限界があります。これらのモデルが放射線学的ワークフローに完全に統合されるためには、画像分析のさらなる改良が必要です。

「診断支援・画像解析」の記事一覧へ

MEDICINE & AI

神経放射線学の症例における大規模言語モデルの診断精度評価