記事詳細｜認知検査の日付とスコアを抽出する大規模言語モデルの評価

認知検査の日付とスコアを抽出する大規模言語モデルの評価

カテゴリ：高齢者医療・介護

公開日：2026年2月19日

タイトル：Evaluating Large Language Models in extracting cognitive exam dates and scores 雑誌名：PLOS Digit Health. 2024 Dec; 3(12): e0000685. 概　要：本研究は、臨床タスクにおける大規模言語モデル（LLMs）の信頼性を評価することを目的とし、特にMMSEやCDRなどの認知検査に焦点を当てています。2010年1月12日から2023年5月24日までの135,307件の臨床ノートから、MMSE、CDR、またはMoCAに言及する34,465件のノートを選定し、765件をChatGPT（GPT-4）とLlaMA-2で評価しました。ChatGPTは742件のノートからMMSEおよびCDRの情報を成功裏に抽出しました。結果として、ChatGPTはLlaMA-2に比べて高い精度を示し、認知症研究や臨床ケアにおいて有用である可能性があります。方　法：本研究は、135,307件の臨床ノートを対象にした診断/予測研究です。最終的に34,465件のノートが選定され、そのうち765件がChatGPTとLlaMA-2で評価されました。22名の専門家が応答をレビューし、Fleiss' Kappa、精度、感度、真陽性/偽陰性率、正確性を計算しました。TRIPOD報告ガイドラインに従ってモデルの検証が行われました。結　果： ChatGPTはMMSEの情報抽出において83%の精度、89.7%の感度、96%の真陰性率、82.7%の精度を達成しました。一方、CDRでは87.1%の精度、84.3%の感度、99.8%の真陰性率、48.3%の精度でした。LlaMA-2はMMSEにおいて66.4%の精度、69.9%の感度、60.0%の真陰性率、62.2%の精度でした。ChatGPTのエラーは少なく、LlaMA-2は多くの誤りを示しました。結　論： ChatGPTは認知検査の日付とスコアを高精度で抽出できることが示され、LlaMA-2よりも優れた性能を発揮しました。LLMsの厳密な評価は、その能力と限界を理解するために重要であり、認知症研究や臨床ケアにおいて有益である可能性があります。

「高齢者医療・介護」の記事一覧へ

MEDICINE & AI

認知検査の日付とスコアを抽出する大規模言語モデルの評価