MEDICINE & AI

大規模言語モデルを用いたオンライン患者教育資料の可読性向上:横断研究

カテゴリ:災害・救急医療

公開日:2025年10月23日

タイトル:Enhancing the Readability of Online Patient Education Materials Using Large Language Models: Cross-Sectional Study 雑誌名:J Med Internet Res. 2025 Jun 04; 27: e69955. doi: 10.2196/69955. Epub 2025 Jun 04. 概 要: この研究は、オンラインでアクセス可能な患者教育資料(PEMs)の可読性を向上させるために、3つの大規模言語モデル(LLMs)を評価しました。多くのPEMsは推奨される6年生の読み書きレベルを超えており、患者にとって理解が難しいことが指摘されています。ChatGPT、Gemini、Claudeの3つのLLMsを用いて、PEMsの可読性を最適化し、正確性を損なうことなく、より理解しやすい教育コンテンツに変換することを目指しました。 方 法: この横断研究では、3つのウェブサイトからランダムに選ばれた60のPEMsを使用しました。LLMsに対してPEMsの読みやすさを簡素化するように指示し、元のPEMsとLLMによって簡素化されたバージョンの可読性を比較しました。可読性スコアは、Flesch Reading Ease、Flesch-Kincaid Grade Level、Gunning Fog Index、Simple Measure of Gobbledygook Indexの4つの指標を用いて計算されました。正確性と理解可能性も評価され、理解可能性はPatient Education Materials Assessment Tool-Understandability(PEMAT-U)を用いて測定されました。 結 果: 元のPEMsの可読性スコアは、アメリカ心臓協会(AHA)、アメリカ癌協会(ACS)、アメリカ脳卒中協会(ASA)のウェブサイトで推奨される6年生レベルを超えており、平均学年スコアはそれぞれ10.7、10.0、9.6でした。LLMsによる最適化後、可読性スコアはすべてのウェブサイトで有意に改善されました。ChatGPTは10.1から7.6に、Geminiは10.0から6.6に、Claudeは9.6から5.6に改善しました(すべてP<.001)。単語数も有意に減少し、平均範囲は410.9-953.9語から201.9-248.1語に減少しました。ChatGPTによる簡素化PEMsはすべて正確でしたが、GeminiとClaudeではそれぞれ3.3%のPEMsに不正確な部分がありました。PEMAT-Uによる理解可能性スコアは、すべてのLLM簡素化バージョンで維持されました。 結 論: この横断研究は、LLMsがオンラインPEMsの可読性を大幅に向上させる可能性があることを示しています。正確性と理解可能性を維持しながら、より広範な聴衆にアクセス可能にすることができます。しかし、モデルのパフォーマンスのばらつきや不正確さが示されたため、LLM出力の人間によるレビューの必要性が強調されます。医療コンテンツ向けに訓練された高度なLLM技術とモデルを探求するためのさらなる研究が必要です。