文|胡香赟
编辑|海若镜
【资料图】
当前,围绕大模型的“短期炒作太多,长期关注不足”。进入年中,伴随着ChatGPT网站开始下滑的访问量,OpenAI创始人山姆·奥特曼给出前述警示。
整个上半年,在历来不会错过AI技术任何细小突破的医疗健康领域,疯狂同样止不住。据36氪不完全统计,国内企业今年来发布的医疗健康类大模型已接近20个,全面覆盖学术科研、医学影像、医疗问诊等场景。
短暂的狂欢过后,随着盈利模式不清晰、概念验证尚未落地、大模型问诊效果不及真人医生等经营或技术层面的问题频频出现,行业开始重新审视医疗大模型开发的必要性。
在给了所有人一个惊喜之后,大模型究竟是将走向颠覆,还是只迎来一个阶段性高峰?药物研发大模型和医疗大模型有什么大的不同吗?
36氪就这些话题与清华大学教授聂再清聊了聊。2020年年底,摘下阿里达摩院“大牛”的头衔后,聂再清加盟清华大学智能产业研究院(AIR),目前还担任着由AIR孵化的科技企业水木分子首席科学家的职位。近日,他带领的团队刚刚开源一款参数达百亿的可商用、多模态生物医药大模型BioMedGPT-10B,现已在多个生物医药问答基准数据集上实现SOTA,在专业领域的问答能力比肩人类专家。
聂再清,受访者供图
在聂再清看来,大模型最突出的特点在于实现了自然语言和生物编码语言的对齐。生命现象本质上也是“一种自然进化的语言编码”,通过将作为自然语言的人类知识与蛋白质、氨基酸等数据放置到统一的大模型中进行编码学习,有望让大模型实现融会贯通的能力,进而推动生命科学相关的研究应用。
以下为36氪与聂再清的对话:
36氪:AI大模型在医疗领域的使用场景很多,更常见的有医学影像、医疗文本处理等。水木分子为什么选择药物开发这个方向?
聂再清:开发大模型首先要弄清楚“到底给谁用”的问题。在医疗健康领域,可应用的场景包括医学影像、药物研发、医疗文本处理、学术科研等。
从实用性角度而言,我们认为医生在接诊时是否真的需要用到大模型仍有待检验,但大模型直接拿给科学家做AI for Science的使用场景是明确的,药物开发是真正能把很多文章、数据去融会贯通,并产生比较好的结果的领域。一些医疗场景需要的可能是智能文本和影像这两个数据模态,但在制药这件事上,数据代码可能是小分子、大分子,或者一段氨基酸序列,蕴含大量生物功能在里边,更具有挑战性。
另一方面,处在训练初始阶段,我们还不能很好地操控大模型时,应该选择一个安全性更高的领域。药物开发的试错环节更多,如果一款药有问题,临床前、临床试验等管线开发的各个阶段都可以随时叫停,不像诊疗那样直接面对患者,风险相对更小。给病人做诊断,10个结果里有1个错的后果可能就很严重;但药物开发时,10个分子里有1个能用,就是一件好事。
36氪:开发生物医药大模型需要怎样的团队配置?
聂再清:开发大模型的门槛相对较高,团队既要懂人工智能,还要懂药,至少是融合了这两个领域的团队才能做,其实并不好招。水木分子在多模态生物医药大模型开发这件事上已经做了两年多了,团队中已经配备了医学背景的科研人员,并聘请了专门做药的顾问,但在生物医药方面也还是在不断学习。
36氪:利用大模型做药物开发和传统的AI制药概念有什么区别?公司提到要做ChatDD引领下的“人机协作对话式药物研发”,如何理解这一概念?
聂再清:传统的药物设计可分为TMDD(Traditional Manual Drug Design)、CADD(Computer-Aided Drug Design)和AIDD(AI Drug Design)三个阶段。其中TMDD基于大量人工试验和经验主义,利用手工合成、提取和筛选药物,低通量、成本高,且缺乏系统性,虽然古老,但很多药企还在沿用这一方法。
图源:水木分子
CADD和AIDD概念其实相似,都是通过计算辅助药物的研发和设计。这一过程中,AI本身是理论计算的一环,AIDD确实可以做得很好,但无法自己做出一款药。因为AI赋能的过程中需要大量人工和AI模型的互动,但行业尚未开发出一个系统或工具实现科研人员和算法的紧密互动。
基于此,我们提出药物设计应该进入一种名为ChatDD的新阶段。相较过去,它多了自然语言和生物编码语言对齐的环节。相当于通过一个大模型把所有外部的知识、数据和工具全部整合,再把科研人员的问题通过提示词传输到大模型中,形成交互,将人的知识和直觉与数据、工具融会贯通,进而提高药物研发效率,甚至产生一些过去时意想不到的效果。
36氪:现在有没有具体的证明大模型提高药物研发效率的案例,比如节省多少开发时间?
聂再清:我们现在还更多的在干实验上验证了效率的提升,和药企的湿实验验证还在进行中。这件事的重点在于,如果有了对蛋白、分子的更好的理解,科研人员在和大模型对话时,就能把语义带进去,做很多操作。
比如在做分子设计时,我们输入一个靶点,然后就能基于靶点的信息和模型进行对话,生成一个小分子药;或者要开发针对某个疾病的小分子药物时,找到最有可能成为成药的小分子大模型就会自动调用DTI算法进行药物靶点亲和力预测。过去研发人员自己手动用算法操作这些步骤,现在通过对话就能实现。
36氪:一般而言,基于语言的生成式模型,它能生成的都是模型已经知道的规则,而药物设计其实是一个不断试错的过程,很多时候逃脱不了人的认知。大模型本身到底能否做研究性的内容?
聂再清:其实蛋白或小分子、疾病之间都是相互连接的知识,我们把这些称作知识图谱,并应用在模型训练的工作上。正是因为有这些联系的存在,我们能将更多的信息融合在一起,启发大模型去思考,比如用在优化分子上。从这个角度来讲,大模型是可以生成新的内容的,并不只是已有知识的重复。
同理,在难成药靶点的开发上,某一个靶点可能尚未被开发,但有没有和这个靶点相似的靶点?这个靶点属于那个疾病?如果有这样的联系,大模型就可以据此去做联想,这是它优于人工的地方。
36氪:有观点认为,医药研发不一定非要做通用大模型,而是各个环节上能有特定的、加速小模型就可以。您是如何看待这个问题的?
聂再清:小模型或针对单独模态的模型“更多只是对一个生物编码语言的理解”。有一个小分子模型,理解的就是小分子的情况;做一个大分子模型,理解的就是大分子。但在实际的应用中,由于人类现有知识中存在大量通过自然语言记录的内容,所以除了要把这些小分子、大分子的自身编码模型做得越来越好之外,还需要将这些分子的自身编码模型与之对齐。最终,小模型会成为大模型里的一个可随时调用的工具,从而更好应用于药物研究,甚至临床报告设计、患者招募等环节。通过和一些从业者的沟通,我们发现这部分需求也确实存在。
从数据质量角度来讲,目前已公开的各种结构化、非结构化的数据,比如PubMed、生物医药专利、以及海量的蛋白质氨基酸序列和单细胞测序数据等,能够提供的数据量就已经足够多,就像ChatGPT一样,我们完全能够基于公有数据训练模型,能做的事情非常多。对于私有数据,它的价值确实也很大,但也可以通过和相关企业开展合作的形式做私有化部署。
36氪:如何避免大模型“一本正经地胡说八道”?
聂再清:我们并不刻意避免。科研工作有时候需要一定的幻觉,只是要把控这个程度,因为科研创新并不是完全把以前的知识重新重复出来,而是要产生新的内容,所谓“胡说八道”其实给创新提供了一定的可能性。
36氪:评价大模型公司的维度、标准有哪些,大模型之后会不会陷入“内卷”状态?
聂再清:生物医药大模型企业尚处在早期阶段,评价体系还没有那么全面,但不会完全参考制药公司的评价标准。归根结底是要看你的大模型能否为客户产生价值,比如是否真的提升效率、提高立项成功率等。
我认为通用大模型不会内卷,因为随着开源的通用大模型越来越多,你只有证明自己比开源的模型更好才有价值,不然为什么要做它?所以有些人可能做着做着就放弃了。未来,真正能跑出来的可能还是和各行业相结合的大模型,因为大模型的未来更多会成为行业的操作系统,将各行业里的工具、数据、和自然语言文本整合起来。从这个角度来讲,基于各行业开发的大模型有可能会再卷一卷。
36氪:大模型企业的商业模式可以是怎样的?
聂再清:生物医药大模型本身可以有To B和To C两种用法,基本都可以走软件付费、卖平台的方式。比如To B向的模式,就是和合作客户做私有化部署,至少在早期是这样的。
标签: