从一个鲜为人知的概念,到圈内津津乐道的名词,大模型对医疗行业的渗透,只用了一年时间。
《2023医疗健康AI大模型行业研究报告》数据显示,截至2023年10月,国内累计公开的大模型数量达到238个,其中,医疗大模型近50个,涉及患者问诊、医生助手、药物研发、健康科普等多个领域。
相比于传统的医疗AI(人工智能),大模型更像是一个真实的人脑,能够理解人类语言,完成逻辑推演,生成最终结果。对于充斥着大量对话场景和信息数据的医疗行业来说,大模型具有天然的应用优势。但另一方面,医疗的严肃属性,数据的互不连通,近乎为零的容错率,都让医疗大模型的商业化举步维艰。
截至目前,国内医疗大模型的玩家,多数为互联网医疗企业和医疗信息化公司,能拿上桌面的产品也基本是过去业务思路的延续。
“我不认为医疗大模型目前是一个风口,大模型只是一种能力,技术的进展想要真正改变一个行业,还是很漫长的,尤其是医疗。”启明创投副总裁孙墨陶告诉《健闻咨询》,在对AI祛魅后,投资圈对医疗大模型目前还是显得更加“实际”,就他而言,在国内能看到一家能有明确商业化路径的公司才能在这个领域真正扣下投资的“板机”。
当生成式AI的风口撞上已经祛魅、处于观望中的投资人,中国医疗大模型的故事会怎样展开?
配方:大厂自研,小厂“投料”
2023年6月30日,成都高新海尔森医院,一场特殊的线下义诊正在进行当中。
患者进入诊室后,会先和医助沟通病情,由医助通过线上文字输入的方式,将患者主诉传达给医生,再带回医生的问题。沟通多轮后,医生会为患者开出检查单或诊断。患者完成所需检查后,医生凭借检查结果给出最终的临床诊断及治疗方案。
之所以会设计这样的流程,是因为有两拨医生正在幕后较劲,一拨来自四川大学华西医院,总共有10位临床医生,遍及8个科室。另一拨则来自医联,是个医疗大模型,叫做MedGPT。这场义诊还有一个别的名字:630一致性评估实验。
最后的评估结果为,两者一致性达到96%。
MedGPT发布于2023年5月,是国内首款医疗大语言模型,由医疗互联网企业医联自主研发。就在MedGPT发布后的两个月内,智云健康、润达医疗(基于华为云)、东软等医疗公司以及深圳市大数据研究院、上海人工智能实验室等研究机构都先后发布了各自的医疗大模型。
在这一时期,国内的医疗大模型都是在通用开源模型的底座上加工而成,比如MedGPT就是在ChatGPT的基础上,通过继续预训练、医学知识微调、人工强化学习等步骤而搭建的,因为省去了从头搭建通用大模型的时间和成本,这一方法也被绝大多数国内企业效仿。
直到2023年9月,腾讯和百度先后发布了基于自研通用大模型打造的医疗大模型产品之后,这个行业才真正进入了“沸点”。
原因是,虽然很多通用大模型会开放参数,但不会公开“配方”,即每个领域的数据配比。当企业想要在某个开源模型的底座上开发医疗大模型时,如果只单一灌输医学知识,模型本身的医疗能力或许会提升,但会破坏底座结构,影响最终效果,这也是早期很多医疗大模型容易出现“幻觉”的原因。
“如果你的医疗底座中没有添加足够多的高质量知识,那么即便后面的对齐做得再好,在生成内容上还是有短板的。”左手医生创始人张超告诉《健闻咨询》,借助开源模型做继续预训练,投料比例是一大难点。在实际操作中,他们会先通过多个实验来计算开源模型的数据分布,之后再把自身积累的医学知识按比例添加进去,“这样才能够保证在医疗能力提升的情况下,通用能力不下降。”
而对于腾讯和百度这些大厂来说,它们显然更具备做好医疗大模型的先天条件。
首先,这些大厂都有自研的通用大模型,可以在其基础上,按照精准的数据配比进行医学训练,成本投入更小。其次,无论是腾讯还是百度,都有医学知识图谱的深厚积累,也能触达到大量的线下医疗场景,可以在后期微调阶段发挥优势,把产品做得更为精细。
以百度灵医大模型为例,百度方面曾公开表示,在文心大模型预训练的过程中,用一些闲置资源就可以把灵医大模型跑出来,测试结果是接近三甲医院的主治医生。
杀手级场景
几天前的一场公开论坛上,“红衣主教”周鸿祎分享过一个观点。
他认为,做医疗大模型,必须把这个行业打开来看,从中找到50-100个细致场景,“场景选择特别重要,To C领域,在做杀手级应用之前,应该先找到杀手级场景,从场景出发来创造应用级产品,大模型基本都是藏在后面解决问题的。”
医疗行业有哪些杀手级场景?
我们不妨先来看看门诊——当患者和医生共处一个诊室时,常见的景象往往是这样,患者焦虑地主诉病情,医生则只管埋头记录,平均5分钟的就诊时间里,双方的对视时间不到10秒,他们的首要任务是合力完成一份格式化的电子病历。
在这个场景下,生成式电子病历正好能匹配医患需求。
但在过去的传统AI时代,想要做出一款成熟的生成式电子病历产品,技术难度和工程成本都极为巨大。2019年,左手医生曾推出过一款类似的产品,叫做“诊室听译机器人”。公司创始人张超告诉《健闻咨询》,当时他们采用的是底层技术是基于知识图谱和传统NLP技术来做语音理解和文本生成,花费了大量时间和人力,面对复杂的医患沟通,最终的信息召回率只有6成左右,也就是说,医患对话中的10个有效信息,AI只能抓取到6个,“医生只能凑合着用”。
大模型的出现,彻底激活了这个场景。基于对人类语言的理解、推理和归纳能力,大模型加持后的AI可以“听懂”医患间的对话,并通过训练从中萃取出有价值的信息,自动生成一个符合医院系统的结构化病历。
“我们现在也在研发大模型,在原来的产品基础上加上大模型的能力,把它做得更好。”张超告诉表示,新产品已经在全国10多家医院落地应用,根据临床反馈,新产品的信息召回率可以可以做到90%,并且还在通过强化学习,不断提高,“在写病历这件事上,大模型未来一定是会替代知识图谱的。”
更多To C的杀手级场景藏在院外。
比如说曾经一度非常火热的AI预问诊。简单来说,就是在患者到院之前,医院通过一些AI小程序向患者发起问诊,目的是尽可能多地收集患者信息,提高就诊时的效率。
但这项功能并不太受到患者端的欢迎。原因是,由AI发起的问诊,大多是基于固定的流程和语序,无法应对患者的个性化需求。就像做性格测试,题目就这些,当患者在这题上打勾时,打勾所对应的下一个问题就会被AI抛出,直到测试结束。