腎生検の実施時期に関する大規模言語モデルの臨床意思決定:比較研究
カテゴリ:公衆衛生・予防医療
公開日:2026年2月19日
タイトル:Large Language Models' Clinical Decision-Making on When to Perform a Kidney Biopsy: Comparative Study
雑誌名:J Med Internet Res. 2025 Sep 18; 27: e73603. doi: 10.2196/73603. Epub 2025 Sep 18.
概 要:
本研究は、腎専門医(腎臓内科医)1000人以上の回答と、一般的に使用される大規模言語モデル(LLM)の出力を比較し、腎生検を実施すべき時期を決定するための質問票を用いています。腎生検の適応と禁忌に関する回答を分析し、LLMが人間の専門家の合意をどの程度再現できるかを評価しました。結果として、LLMの出力はモデルによって大きく異なり、特にリスクに対するアプローチにおいて人間の意見と一致するかどうかが変わりました。
方 法:
この研究では、腎生検の実施時期を決定するための大規模なオンライン質問票を腎臓内科医に配布しました。質問票は患者の意見を取り入れて共同設計され、国際的に配布される前に複数回の改訂を経てパイロットテストが行われました。腎生検の適応に関する質問は、8つの一般的なLLM(ChatGPT-3.5、Mistral Hugging Face、Perplexity、Microsoft Copilot、Llama 2、GPT-4、MedLM、Claude 3)に対して同一の順序で行われました。腎専門医の回答を基準として、腎生検の傾向を示すスコア(0-44)が生成されました。
結 果:
LLMの人間専門家の合意を再現する能力はモデルによって大きく異なり、ChatGPT-3.5とGPT-4は11問中6問で人間の回答と一致しました。人間の回答による腎生検傾向スコアは23/44であり、OpenAIのモデルは22から24の範囲で類似のスコアを示しました。一方、Llama 2とMS Copilotも同様の範囲でしたが、人間の合意との一致は2/11問にとどまりました。最もリスク回避的なモデルはMedLM(スコア11)、最もリスクを取るモデルはClaude 3(スコア34)でした。
結 論:
LLMの出力は、腎生検に関する臨床意思決定を再現する能力があることを示しましたが、モデル間でのパフォーマンスのばらつきが大きいことが確認されました。人間の回答がより均一な質問ではLLMの出力が高い一致を示しましたが、合意が低い質問では一致が悪化しました。これにより、実際の臨床現場でのLLMの利用が制限される可能性があります。