大型语言模型有望改变医疗资源匮乏地区医疗现状。 2月6日,两项发表于《自然-健康》的研究表明,成本低廉的大型语言模型(LLM)能够提高诊断成功率。在卢旺达和巴基斯坦的医疗保健环境中,其表现甚至超过了训练有素的临床医生。
在卢旺达,聊天机器人在有评估的得分上都超过了当地临床医生。而在巴基斯坦,使用LLM辅助诊断的医生平均诊断推理得分率为71%,使用传统资源的医生得分率为43%。
这些论文凸显了LLM将如何支持中低收入国家临床医生提高护理水平。英国牛津大学人工智能(AI)伦理研究所主任Caroline Green说。
LLM具有广泛的应用场景,比如在医学领域,它能够通过医学研究生考试,并帮助临床医生做出诊断。不过,这是在受控的基准测试中的表现,它在无医生核对答案、病人众多且资源有限的真实环境中表现如何?
为了找到答案,两个不同的研究团队分别在卢旺达和巴基斯坦的真实医疗环境中开展了研究。
在卢旺达开展的研究中,研究人员测试了LLM在4个低卫生资源地区为患者提供准确临床信息的能力。这些地区面临的一个普遍问题是,医护人员稀缺,无法接诊所有病人,因此大多数人由培训不足的社区工作者接诊和分诊。该研究作者、非营利性国际健康组织PATH的首席AI官Bilal Mateen说。
Mateen团队让当地约100名社区卫生工作者编制了一份包含5600个临床问题的清单。这些问题是他们在实际工作中经常从患者那里遇到的。研究人员将5个LLM对其中约500个问题的回答,与经过培训的当地临床医生的回答进行了比较,并进行评分。结果显示,在11个评价指标上,所有LLM的表现都优于当地临床医生。这些指标包括与既定医学共识的一致性、对问题的理解程度以及导致伤害的可能性。此外,LLM能够用卢旺达语回答约100个问题。
Mateen表示,与人类医生相比,LLM还有另一个优势,它可以提供全天候服务,社区健康工作者可以随时咨询。此外,LLM成本低廉,医生生成答案平均成本为5.43美元、护士为3.80美元,而LLM用英语回答的成本为0.0035美元、用卢旺达语回答的成本为0.0044美元。
这项研究表明,商业LLM能够对常见问题给出医学上和文化上都合适的回答。美国贝斯以色列女执事医疗中心临床和AI研究员Adam Rodman说。不过,他对于将LLM与人类表现进行比较仍持怀疑态度,认为这种基于书面回答的评估机制适合衡量模型,但对衡量人类表现则不那么有效。
除了Mateen团队外,由拉合尔管理科学大学计算机科学家Ihsan Qazi领导研究团队也对LLM在实际环境中的应用开展了研究,结果发现,在巴基斯坦,LLM可以提高低资源医疗环境下的诊断准确性。那里缺乏医学专家,患者数量庞大,导致诊断错误率高。
Qazi团队进行了一项随机对照试验,58名执业医师接受了20小时的培训,学习如何使用LLM辅助诊断患者症状,并警惕程序可能出现的错误或幻觉。实验结果表明,在审查临床病例时,访问GPT-4o LLM的医生的诊断准确性评分显著高于仅使用生物医学数据库pubmed和互联网搜索的医生;能够访问LLM的医生平均诊断推理得分率为71%,而使用传统资源的医生平均诊断推理得分率为43%。
二次分析发现,LLM的得分高于由LLM辅助的医生。不过也有例外,在31%的病例中,医生的表现优于AI。这些病例涉及临床警示特征、情境性因素,而这些是LLM遗漏的。Qazi说。
Qazi预计上述研究结果也适用于其他国家,但需要使用其他聊天机器人进行重复验证。这项研究有望促成AI与医疗保健更安全、有效的整合。
这表明,使用LLM可以改善诊断推理过程。Rodman说。
这些研究强调了培训能够基于自身专业知识使用AI的医生的重要性。Green说,不过,LLM存在偏见和患者数据保密性问题,这值得警惕,绝不能采纳由LLM提供的片面的医疗保健理念。
Mateen和Qazi也指出了其他潜在的问题。在卢旺达,医疗保健系统压力巨大,目前无法满足其人口需求,而基于LLM的医疗保健系统可能让初级接诊更有效,这意味着诊断出的等待治疗的病人更多,这可能会给当地医疗系统带来更大压力。Mateen说。
而Qazi则警告说,对AI的依赖可能导致医生不加质疑地接受有缺陷答案,比如他们研究中发现的被遗漏的临床警示特征、情境性因素等。(来源:中国科学报 许悦)
相关论文信息:https://doi.org/10.1038/s44360-025-00038-1
https://doi.org/10.1038/s44360-025-00007-8
作者:Bilal Mateen 来源:《自然—健康》

