認知検査の日付とスコアを抽出する大規模言語モデルの評価
カテゴリ:高齢者医療・介護
公開日:2026年2月19日
タイトル:Evaluating Large Language Models in extracting cognitive exam dates and scores
雑誌名:PLOS Digit Health. 2024 Dec; 3(12): e0000685.
概 要:
本研究は、臨床タスクにおける大規模言語モデル(LLMs)の信頼性を評価することを目的とし、特にMMSEやCDRなどの認知検査に焦点を当てています。2010年1月12日から2023年5月24日までの135,307件の臨床ノートから、MMSE、CDR、またはMoCAに言及する34,465件のノートを選定し、765件をChatGPT(GPT-4)とLlaMA-2で評価しました。ChatGPTは742件のノートからMMSEおよびCDRの情報を成功裏に抽出しました。結果として、ChatGPTはLlaMA-2に比べて高い精度を示し、認知症研究や臨床ケアにおいて有用である可能性があります。
方 法:
本研究は、135,307件の臨床ノートを対象にした診断/予測研究です。最終的に34,465件のノートが選定され、そのうち765件がChatGPTとLlaMA-2で評価されました。22名の専門家が応答をレビューし、Fleiss' Kappa、精度、感度、真陽性/偽陰性率、正確性を計算しました。TRIPOD報告ガイドラインに従ってモデルの検証が行われました。
結 果:
ChatGPTはMMSEの情報抽出において83%の精度、89.7%の感度、96%の真陰性率、82.7%の精度を達成しました。一方、CDRでは87.1%の精度、84.3%の感度、99.8%の真陰性率、48.3%の精度でした。LlaMA-2はMMSEにおいて66.4%の精度、69.9%の感度、60.0%の真陰性率、62.2%の精度でした。ChatGPTのエラーは少なく、LlaMA-2は多くの誤りを示しました。
結 論:
ChatGPTは認知検査の日付とスコアを高精度で抽出できることが示され、LlaMA-2よりも優れた性能を発揮しました。LLMsの厳密な評価は、その能力と限界を理解するために重要であり、認知症研究や臨床ケアにおいて有益である可能性があります。