医療トリアージをAI倫理のベンチマークとして
カテゴリ:災害・救急医療
公開日:2025年8月26日
タイトル:Medical triage as an AI ethics benchmark
雑誌名:Sci Rep. 2025 Aug 22; 15(1): 30974.
概 要:
本研究では、TRIAGEベンチマークという新しい機械倫理の基準を提案し、大規模言語モデル(LLMs)の倫理的意思決定能力を大規模な傷害者発生シナリオで評価します。医療専門家が作成した医療のジレンマを用いて、AIシステムの倫理的意思決定を現実の高リスクなシナリオで評価しました。6つの主要なLLMをTRIAGEで評価し、異なる倫理的および対立的なプロンプトがモデルの挙動に与える影響を調査しました。結果として、ほとんどのモデルはランダムな推測を一貫して上回りましたが、オープンソースモデルはプロプライエタリモデルよりも深刻な倫理的誤りを犯しました。LLMsに倫理的原則を提供するとTRIAGEでのパフォーマンスが低下し、他の機械倫理ベンチマークの結果とは対照的でした。また、対立的なプロンプトは精度を大幅に低下させました。この研究は、文脈や倫理的枠組みがLLMsのパフォーマンスに与える影響を示し、医療における高リスクな倫理的意思決定におけるAIの現在の能力と限界についての重要な洞察を提供します。
方 法:
本研究は、医療のジレンマを用いたTRIAGEベンチマークを設計し、6つの主要な大規模言語モデル(LLMs)を評価しました。各モデルの倫理的意思決定能力を、異なる倫理的および対立的なプロンプトを用いて検証しました。主要評価指標は、モデルの意思決定の正確性と倫理的誤りの頻度です。
結 果:
ほとんどのモデルはランダムな推測を上回るパフォーマンスを示しましたが、オープンソースモデルはプロプライエタリモデルよりも深刻な倫理的誤りを多く犯しました。倫理的原則を提供した場合、TRIAGEでのパフォーマンスが低下し、対立的なプロンプトは精度を大幅に低下させました。
結 論:
TRIAGEベンチマークは、医療における高リスクな倫理的意思決定におけるAIの能力と限界を評価するための重要なツールであり、文脈や倫理的枠組みがLLMsのパフォーマンスに与える影響を明らかにしました。