結核に関する医療質問に対する大規模言語モデルの能力:ChatGPT、Gemini、Copilotのテスト
カテゴリ:公衆衛生・予防医療
公開日:2026年2月19日
タイトル:Large language models' capabilities in responding to tuberculosis medical questions: testing ChatGPT, Gemini, and Copilot.
雑誌名:Sci Rep. 2025 May 23; 15(1): 18004.
概 要:
本研究は、大規模言語モデル(LLMs)が結核に関連する質問にどの程度対応できるかを評価することを目的としています。ChatGPT、Gemini、Copilotの3つのモデルを選定し、診断、治療、予防と管理、病気管理の4つの主要な領域にわたる質問を設計しました。回答はDISCERN-AIおよびNLAT-AI評価ツールを用いて評価されました。ChatGPTは全領域で4点のスコアを達成し、Geminiは予防と管理において4.4点で優れたパフォーマンスを示しました。一方、Copilotは病気管理において3.6点と最も低いスコアでした。診断領域では、3モデルとも同等のパフォーマンスを示しました。DISCERN-AI基準によると、ChatGPTは情報の関連性で優れているものの、情報源や情報生成日を提供する点で不足が見られました。全モデルはバランスと客観性の指標において類似のパフォーマンスを示しました。これらのモデルは結核に関する医療質問に対して許容できる能力を示していますが、情報源の引用不足や回答の不確実性の認識不足といった共通の限界があります。モデルの改善が医療情報提供における役割を強化する可能性があります。
方 法:
本研究は、ChatGPT、Gemini、Copilotの3つの大規模言語モデルを用いた評価研究です。質問は診断、治療、予防と管理、病気管理の4つの領域に分けて設計され、各モデルの回答はDISCERN-AIおよびNLAT-AI評価ツールを用いて評価されました。
結 果:
ChatGPTは全領域で4点を達成し、Geminiは予防と管理で4.4点を示しました。Copilotは病気管理で3.6点と最も低いスコアでした。診断領域では全モデルが同等のパフォーマンスを示しました。ChatGPTは情報の関連性で優れていましたが、情報源や生成日については不足がありました。
結 論:
大規模言語モデルは結核に関する医療質問に対して許容できる能力を示しましたが、情報源の引用不足や不確実性の認識不足といった限界があります。これらのモデルの改善が医療情報提供の強化に寄与する可能性があります。