新生児在宅酸素療法の教育資料生成と最適化における大規模言語モデルの評価
カテゴリ:公衆衛生・予防医療
公開日:2026年4月14日
タイトル:Evaluation of large language models in generating and optimizing educational materials for neonatal home oxygen therapy.
雑誌名:Front Artif Intell. 2026; 9: 1770564. doi: 10.3389/frai.2026.1770564.
概 要:
新生児在宅酸素療法(NHOT)は、気管支肺異形成症(BPD)を持つ早産児にとって重要な治療法ですが、既存の健康教育資料は特に教育背景の低い祖父母の介護者にとって理解しにくいものが多いです。本研究では、6つの主要な大規模言語モデル(LLMs)がNHOTに関する健康教育資料を生成・最適化する能力を体系的に評価しました。
方 法:
ChatGPT-5.1、Claude 4.5 Sonnet、Gemini 2.5 Pro、Grok-4.1、Qwen-3-Max、DeepSeek-V3.2の6つのLLMが含まれ、各モデルは3つのプロンプト戦略(ベースライン、簡略化、書き直し)に基づいて20のテキストを生成し、合計360のテキストを作成しました。20のWeChat公衆衛生記事が人間が作成した基準として使用されました。主観的評価にはC-DISCERN、C-PEMAT(理解可能性と行動可能性)、医療的正確性のリッカート尺度を用い、客観的な言語分析にはAlpha Readability Chinese(ARC)ツールを使用しました。
結 果:
全てのモデルは人間の基準よりも医療的正確性が高く、Qwenはコンテンツ品質で最高のスコアを示しました。簡略化プロンプトは全モデルでC-DISCERNスコアを有意に低下させましたが、理解可能性や行動可能性の改善にはつながりませんでした。書き直しタスクでは、全モデルが元のテキストの理解可能性を有意に向上させ、GrokとQwenはコンテンツ品質と行動可能性も改善しました。言語分析では、プロンプトの最適化が意味的正確性を向上させ、意味的ノイズを減少させる一方で、語彙の豊かさが低下することが明らかになりました。
結 論:
LLMsは既存の健康教育資料を最適化する大きな可能性を示し、特に書き直しモードでの性能が高いことが分かりました。単純な「平易な言葉」の指示はコンテンツ品質を損なうリスクがあり、正確性、明瞭性、完全性のバランスを考慮したプロンプト設計が必要です。すべてのAI生成資料は配布前に資格のある臨床専門家による厳格なレビューが必要です。