医疗大模型或能在测试关能和医生相媲美,到了临床,情况也许大相径庭。
今年7月末,在科学期刊Nature Medicine上,一篇名为“Evaluation and mitigation of the limitations of large language models in clinical decision-making”(《“评估和减轻大型语言模型在临床决策中的局限性”》)的研究论文引发关注。
该研究发现,即使是目前最先进的大模型,也无法为所有患者做出准确诊断,且表现明显差于人类医生,医生的诊断正确率为 89%,而大模型的诊断正确率仅为73%。在一个极端情况(胆囊炎诊断)下,大模型正确率仅为13%。
更令人惊讶的是,随着对病例信息的了解增多,大模型的诊断准确度反而会降低,有时甚至会要求进行一些可能对患者有严重健康风险的检查。