多段階検索と推論が大規模言語モデルによる放射線科の質問応答を改善する
カテゴリ:診断支援・画像解析
公開日:2026年2月19日
タイトル:Multi-step retrieval and reasoning improves radiology question answering with large language models.
雑誌名:NPJ Digit Med. 2025 Dec 22; 8(1): 790. doi: 10.1038/s41746-025-02250-5. Epub 2025 Dec 22.
概 要:
本研究は、放射線科における意思決定支援において、大規模言語モデル(LLM)の有用性を探求しています。従来の検索強化生成(RAG)は単一ステップの検索に依存し、複雑な推論に苦しんでいます。本研究では、臨床質問を反復的に要約し、証拠を検索し、回答を統合する多段階検索フレームワーク「放射線科検索と推論(RaR)」を提案しました。104の専門家が選定した放射線科の質問と65の実際の放射線科ボード試験の質問に対して25のLLMを評価し、RaRは診断精度を有意に向上させました。
方 法:
本研究では、104の専門家が選定した放射線科の質問と65の実際の放射線科ボード試験の質問を用いて、0.5Bから670Bパラメータを持つ25のLLMを評価しました。RaRフレームワークは、臨床質問を要約し、証拠を検索し、回答を合成する多段階のプロセスを採用しています。主要評価指標は、診断精度であり、RaRの効果を比較しました。
結 果:
RaRは、ゼロショットプロンプティングに対して診断精度を75%から67%に改善し(P=1.1×10^-7)、従来のオンラインRAGに対しても75%から69%に改善しました(P=1.9×10^-6)。特に中規模および小規模モデルでの改善が顕著であり(例:Mistral Large: 72%から81%)、非常に大規模モデルでは変化が少なかったです。また、RaRは46%のケースで臨床的に関連する証拠を提供し、事実の基盤を改善しました。
結 論:
多段階検索は、特に中規模のデプロイ可能なLLMにおいて診断の信頼性を向上させることが示されました。RaRフレームワークは、放射線科の質問応答における推論能力を強化し、臨床現場での応用が期待されます。コードやデータセットは公開されています。