以大语言模型(LLM)为代表的生成式人工智能,拥有强大的知识编码、文本理解、推理能力,迅速成为数字化和智能化的新型技术基座,有望推动新一轮的医学人工智能革命,对科学和社会产生深远的影响。现有医学大模型处于快速变革和更新迭代的关键时期,面对场景特异知识缺乏、生成内容安全性不足等挑战。医学大模型的前瞻性临床试验和真正落地,更是被誉为“皇冠上的明珠”,是领域内亟待攻克的重要问题。因此,如何研发关键性技术破解落地难题,对于推动医学大模型领域的发展与转化应用,具有重要科学与社会意义。2024年7月15日,中国医学科学院基础医学研究所龙尔平团队与耶鲁大学陈庆宇团队合作,在 Nature Medicine 期刊发表了题为:Outpatient reception via collaboration between nurses and a large language model: a randomized controlled trial 的研究论文。不同于主流的通用大模型,该研究将整体医疗场景拆分为特定的“小世界”,建立了全景数据采集-知识精炼-算法增强的“小世界增强”SSPEC技术框架,成功研发了兼具高专业度和共情支持的导诊大模型;通过预警低质量的生成内容和必要修正,解决了大模型的幻觉难题,成功推向临床试验,获得最高级别的循证医学支持证据。图1. SSPEC数据采集、设计、评估及验证的总流程成立真实医学对话医疗联盟,建立战略级医学大模型数据资源池为了采集原始的医患对话记录,研究团队成立了“真实医学对话语料联盟”,建立语音采集-自动文字转化-人工校对的标准化流程;SSPEC大模型的构建,以2个中心10个场景全方位采集的35418例真实导诊对话为基础,以提取对话信息形成的知识库作为训练数据,在基座模型上进行微调和提示调优,使导诊大模型能够解决场景中出现的各种特定问题。截至2024年6月,团队已在5个中心24个不同医学场景,收集整理了超过120万例真实医患对话。“真实医学对话语料联盟”展示了医患沟通中难预测、低效率等特点,也为应用级的大模型研发搭建了战略级的数据资源壁垒。大语言模型往往会一本正经地胡说八道,这类现象被称为“幻觉”,普遍存在且难以察觉/纠正。为确保模型的安全性、解决幻觉难题,研究团队以场景知识为基准,研发了知识对齐的多通道安全预警系统,运用增强检索、风险词库等多项技术,对生成内容进行评估和必要修正。前瞻性随机对照试验,获得最高级别的循证医学支持证据医学大模型的前瞻性临床试验和真正落地,被誉为“皇冠上的明珠”,是领域内亟待攻克的重要问题。本研究发现,SSPEC在内部测试中能够在更少的对话回合内解决患者的疑问,性能上全面优于现有主流大模型,同时在共情支持得分上显著优于人类导诊(4.12±0.86 vs 3.39±1.21, P < 0.001)。
基于此,研究团队率先将SSPEC推向临床,在2164人的前瞻性随机对照试验中,相对于人类专家,SSPEC在事实性、安全性、共情能力均展现出明显优势,在真实应用场景中,降低了11.2%的重复沟通和5.4%的医患冲突比例。图3. 内部测试中SSPEC与人工导诊的回复质量对比提高全要素生产率,实现医疗健康行业的增速换挡,是全球整体社会发展的核心诉求之一。SSPEC技术不依赖特定的基座大模型,通过特定场景的垂直领域增强,取得了最高级别的循证医学支持性证据,将作为医学大模型的示范性落地应用,为推进卫生健康现代化提供新质生产力方案。研究团队表示,SSPEC技术不仅能够应用于导诊工作,未来能够拓展于患者健康教育、操作前谈话等更多的复杂临床场景。
龙尔平研究员(中国医学科学院)和陈庆宇助理教授(耶鲁大学)为论文共同通讯作者。美国国立卫生研究院、武汉大学人民医院、南方科技大学盐田医院的合作者参与本研究,作出重要贡献。
论文链接:
www.nature.com/articles/s41591-024-03148-7
医微客一站式科研服务平台,致力于服务医院和企业,协助医生解决科研上的痛点,提升临床科研水平,为企业提供医学写作、医学编辑、科研培训和学术传播等策略支持。
科研资讯(站内):
百度浏览
来源 : 生物世界
版权声明:本网站所有注明来源“医微客”的文字、图片和音视频资料,版权均属于医微客所有,非经授权,任何媒体、网站或个人不得转载,授权转载时须注明来源:”医微客”。本网所有转载文章系出于传递更多信息之目的,且明确注明来源和作者,转载仅作观点分享,版权归原作者所有。不希望被转载的媒体或个人可与我们联系,我们将立即进行删除处理。 本站拥有对此声明的最终解释权。
发表评论
注册或登后即可发表评论
登录注册
全部评论(0)