大規模言語モデルを用いた公的情報源からの死亡情報の自動抽出:開発と評価研究
カテゴリ:公衆衛生・予防医療
公開日:2026年2月19日
タイトル:Automated Extraction of Mortality Information From Publicly Available Sources Using Large Language Models: Development and Evaluation Study
雑誌名:J Med Internet Res. 2025 Aug 18; 27: e71113. doi: 10.2196/71113. Epub 2025 Aug 18.
概 要:
本研究は、自然言語処理(NLP)と大規模言語モデル(LLM)を用いて、ソーシャルメディア、クラウドファンディングサイト、オンライン追悼サイトなどの公的なウェブデータソースから死亡情報を抽出する手法を開発し、その性能を評価することを目的としています。従来の死亡情報源は、データの遅延や不完全さが課題であり、デジタルコンテンツの活用が期待されています。
方 法:
2015年から2022年までの米国に関連する公的投稿データを収集し、トランスフォーマーベースのモデルを用いて死亡者の名前、生年月日、死亡日などの情報を抽出しました。さらに、少数ショット学習(FSL)アプローチを用いて主因と副因を特定しました。モデルの性能は、精度、再現率、F1スコア、正確性を指標に評価しました。
結 果:
最も性能の良いモデルは、死亡情報抽出においてマイクロ平均F1スコア0.88を達成しました。FSL-LLMアプローチは、さまざまなウェブソースで主因の特定において高い精度を示しました。GoFundMeでは主因特定の精度が95.9%、追悼サイトでは96.5%、メモリアルサイトでは98%でした。
結 論:
本研究は、先進的なNLPおよびLLM技術を用いて公的なウェブソースから死亡データを抽出する可能性を示しました。これにより、死亡監視のタイムリーさ、完全性、詳細度が向上し、従来のデータシステムを補完する貴重な手段となります。今後は、実際の医療現場での検証とデジタルデータソースの国の公衆衛生監視システムへの統合が求められます。