全球消息!清华AIR开源轻量版BioMedGPT!聂再清:要做生物医药版ChatGPT

首页>资讯 > 正文
2023-04-21 20:40:41

来源:量子位

衡宇 萧箫 发自 凹非寺

量子位 | 公众号 QbitAI


(相关资料图)

生物医药研发领域,一个名为 BioMedGPT-1.6B 的轻量级科研版基础模型刚刚 开源

参数16亿,最大特点是 跨模态与知识融合

训练数据中,包含分子、文献、专利、知识库等多尺度 跨模态 的生物医药大数据,并融合分子结构、知识图谱和文献文本中的 知识 ,用于增强模型的泛化能力和可解释性。

应用任务上,BioMedGPT-1.6B则展现出了通用能“打”的效果,可以处理药物性质预测、自然语言类、跨模态等多种任务。

打造这个BioMedGPT-1.6B生物医药基础模型的团队,来自 清华智能产业研究院 (AIR) 。

项目负责人 聂再清 ,清华大学国强教授、AIR首席研究员,主要研究领域是大数据与AI的前沿创新,以及在健康医疗领域的产业应用,更早之前则以阿里达摩院大牛、天猫精灵首席科学家为人熟知。

△聂再清

此次开源的BioMedGPT-1.6B,其实是他和团队正在做的 BioMedGPT 的单机轻量版,后者是一个适用于生物医药领域研发的通用大模型。

1.6B版本先行开源,目的是小试牛刀,同时让行业相关科研人员有东西可用。

所以,这个BioMedGPT究竟是做什么的,团队目前进展如何?在业界已有不少生物医药专业大模型的情况下,做通用大模型的考量是什么,又要如何去做?

聂再清教授向我们解答了背后的思考。

生物医药版GPT,也应具备“涌现”潜力

先来看看BioMedGPT究竟是个什么项目,进展到了哪一阶段。

聂再清教授认为,就像ChatGPT成为了NLP领域的基础大模型一样,BioMedGPT也会成为生物医药领域的基础大模型。

但在这里,“像ChatGPT”并不仅仅意味着BioMedGPT=生物医学大模型+对话能力,而是和ChatGPT一样,会出现 智力涌现 的情况。

只不过,这里的“智力”,指的是 生物医学领域方面知识 的理解、规律的发现与灵感的启迪。

这个基础模型的底座能够给药物发现、分子/蛋白质设计等应用提供底层能力,同时能够成为生物医药研究者的助手 (Copilot) 辅助研究者更高效的开展研究探索。

所以,能实现这种效果的BioMedGPT,架构上究竟长啥样?

整体来看,它是一个具备多个输入Encoder的模型,这些Encoder会先分别处理不同模态的输入,如分子、蛋白质和文献等。

然后,将这些不同模态的输入,进行统一表示处理,这样就能学习到不同模态之间的关联知识。

这给了模型“融会贯通”的能力,既可以读文献、查专利,又可以读分子序列、蛋白结构、实验数据。

不仅如此,BioMedGPT也是 首个将多模态知识引入模型构建 的项目,通过知识图谱的方式将生物医药领域的知识注入到模型中,以增强模型的泛化能力和可解释性,同时能够应对科研领域知识的快速更迭,让模型持续学习,变得更“聪明”。

基于这种融会贯通与知识增强的能力,BioMedGPT在下游的多项任务中表现出了整体的效果提升。

目前团队已经完成了实验验证阶段, 用一个比较小的端到端模型证明了这种思路的可行性

那么最终能在生物医药方面表现出“智力涌现”的模型,预计在什么规模?

聂再清教授认为,模型参数量级预计在 几百亿 左右,而训练这一模型达成“涌现”效果的数据量, 几十亿到百亿级 应该也就够了。

事实上,在ChatGPT出现之前,也就是一年多以前,聂再清和团队就已经在筹备这一项目,目前清华AIR生命科学相关团队规模已经达到50人左右。

对于BioMedGPT的未来,聂再清教授很有信心:

预计两年内,这个模型应该会在小范围内具备一定影响力,至于像ChatGPT那样成为行业通用大模型,做到那样的影响力可能至少还需要3~5年。

但即便如此,BioMedGPT模型究竟能否成功,目前仍旧是一个未知数。

同时对于大模型训练必不可少的算力和数据等方面,也仍然是业界关注的话题。

对于这些观点和想法,聂再清教授又是如何看待的?

“一个理性而大胆的尝试”

大模型的发展和AI技术的更迭组成了ChatGPT为首的一波AI新浪潮。

但早在聂再清教授动念要将生物医药学科知识“塞”进大模型里时,ChatGPT还没打破沉寂。

所以为什么要做?为什么敢做?

时间回到ChatGPT刮大风之前。当时,GPT-2已经可以编故事,下象棋;等到1750亿参数GPT-3出现,已经博得众人瞩目:不仅延续了前代编故事的能力,还能写代码、答问题……

利用大规模文本数据学习语言知识和规律,加上狂叠参数的暴力美学,GPT-3已经在通用领域任务中出现涌现能力,到GPT-3.5,基本的逻辑推理能力突然出现。

在生物和化学领域,生命的本质可以看做一种精密的编码语言,尤其是生命科学领域中微观世界的分子序列数据。

聂再清教授认为,自然语言同样也是一种非常精密的序列,缺一点或少一丝都会让意思变得不一样,因此二者具有类似的特征。

基于此,大模型的底层思想或许有用于生命科学微观数据处理的可能。如果能实现,就能利用生物医药领域的专业知识,帮助完成科研任务。

工作正式开始之前,团队将微观 (基因、分子、蛋白质、细胞) 与文献知识压缩到一个端到端的模型里,用实验验证了这条思路的可能性——确实在部分药物研发关键下游任务中取得SOTA效果。

于是,做一个适用于生物医药领域研发的基础大模型这事,正式开始了。

此前,无论是单独针对分子、蛋白质还是生物医药领域文献,都有团队单独打造过大模型,但还没有人做一个行业通用的多模态版本。而现在的开源版本BioMedGPT-1.6B,并非一个接近AGI甚至与ChatGPT能力媲美的版本。

“毕竟大家的期待比较高,我们还是要把期待降下来,”聂再清教授解释选择现在向外界告知进度的原因,大方表示目前还达不到理想状态的能力,“实际上,我们最主要还是想把现有工作服务到正在进行相关研究的科研人员。”

但这样的尝试,被聂再清教授称为一种 理性而大胆的选择

理性,是因为通过实验,确实发现人类知识经过encoder后,能够产生帮助;大胆,是因为一方面还未完全证明这个工作的商业实用价值,工作还在初步阶段,模型的规模和模态的种类都有待扩大。

但在这个乐观的估计下,工作还是推进了;不仅推进,还快速拿出了轻量级版本。

乐观倒不是因为没由来的盲目,聂再清教授表示,数据、算力和成本上,BioMedGPT暂时都不存在什么担忧:

数据质量 上,生物医学领域的论文和专利质量“还是很高的”,不必过于担心训练语料质量不高的情况,并且目前已公开的PubMedQA等数据集,数据量“已经足够”。

同时,团队集合了具有生物医学专业背景的同学,对数据集的构建做了精细专业的设计和专业的标注。

当然,还有一些任务所需的私有数据,BioMedGPT希望通过未来的双通道干湿闭环得到补充。

算力层面 ,聂再清教授是这样表示的:

目前国内敢跳出来宣布入局大模型的团队,背后肯定已经有足够的算力支撑规划。

数据丰富但公开,算力稀缺但不是无法解决,日后入局者纷至沓来,是不是会在壁垒很薄的情况下形成不必要的行业竞争?

聂再清教授表示了对这个问题的否定,他认为做的人越多,意味着关注度越高,最终的结果就是利好行业内所有的AI制药公司。

最后,我们也朝聂再清教授抛出了那个灵魂问题——

生物医药研发阶段,一切都容不得半点差错, 怎么约束大模型的幻觉

聂再清教授说了段绕口令般的话:

我们当然希望,大模型知道“自己知道什么事”,也知道“它知道自己不知道什么事”。但,目前确实也会出现大模型“不知道自己不知道”的情况。

而大模型“不知道自己不知道”,就是我们常见的大模型幻觉——它以为自己知道,其实它不知道。

针对生物医药领域解决的思路,是通过 两个闭环 来实现对模型的“纠偏”。

干湿实验验证 通过湿实验,将模型真实性趋近物理真实世界; 专家在环 可控的设计,则通过专家instruct,让模型与人类专家认知趋近。

换言之,通过“做实验”和“跟专家学”两个环路,让AI模型幻觉降低。

聂再清与团队的下一站,就是通过两个闭环,尽可能扩大“大模型知道自己能做啥”的范围,以进一步降低大模型“不知道自己不知道”的比例。

对于此次开源,中国工程院院士、清华大学讲席教授、AIR院长 张亚勤 院士表示:

将大模型范式应用于生命科学是理性又大胆的探索。

AIR的研究团队以构建生物医药领域大模型为目标,相继研发了多个生物医药专业领域的AI模型,在蛋白质结构预测、抗体设计等领域取得了不错的成果。

此次开源的轻量级科研版基础模型BioMedGPT-1.6B是在生命科学领域的重要进展。

未来,研究团队将继续用BioMedGPT进一步整合领域内多源异构的数据,将知识融入模型构建之中,实现生物世界文本和知识的统一表示学习,带来生物医药领域的“智能涌现”。

开源地址:https://github.com/BioFM/OpenBioMed

— 完 —

量子位 QbitAI · 头条号签约

关注我们,第一时间获知前沿科技动态

标签:

THE END
免责声明:本文系转载,版权归原作者所有;旨在传递信息,不代表热讯制鞋网的观点和立场。

相关热点

新华社电 上海市文化和旅游局近日发布《上海市密室剧本杀内容备案管理规定(征求意见稿)》,并截至12月8日面向社会公众广泛征求意见。这
2021-11-19 13:46:03
《中国证券报》17日刊发文章《备战2022 基金经理调仓换股布新局》。文章称,距离2021年结束仅剩一个多月,基金业绩分化明显。部分排名靠前
2021-11-19 13:46:03
交通运输部办公厅 中国人民银行办公厅 中国银行保险监督管理委员会办公厅关于进一步做好货车ETC发行服务有关工作的通知各省、自治区、直
2021-11-19 13:45:58
新华社北京11月17日电 题:从10月份市场供需积极变化看中国经济韧性新华社记者魏玉坤、丁乐读懂中国经济,一个直观的视角就是市场供需两端
2021-11-19 13:45:58
全国教育财务工作会议披露的消息称,2020年,中国国家财政性教育经费投入达4 29万亿元,占GDP总量的4 206%,我国国家财政性教育经费支出占G
2021-11-19 13:45:48
如果你也热爱“种草”,前方高能预警!让你心心念念、“浏览”忘返的网络平台,可能早已成为一块块“韭菜地”。近日,据《半月谈》报道,有...
2021-11-19 13:45:48
日前,工业和信息化部印发《“十四五”信息通信行业发展规划》(以下简称《规划》),描绘了未来5年信息通信行业的发展趋势。《规划》指出...
2021-11-19 13:45:40
本报讯(中青报·中青网记者 周围围)2021年快递业务旺季正式拉开帷幕。国家邮政局监测数据显示,仅11月1日当日,全国共揽收快递包裹5 69
2021-11-19 13:45:40
人民网曼谷11月17日电 (记者赵益普)17日上午,中国援柬埔寨第七批200万剂科兴新冠疫苗抵达金边国际机场。当天,柬埔寨政府在机场举行了
2021-11-19 13:45:35
金坛压缩空气储能国家试验示范项目主体工程一角受访者供图依托清华大学非补燃压缩空气储能技术,金坛压缩空气储能项目申请专利百余项,建立
2021-11-19 13:45:35
视觉中国供图42亿立方米据有关部门预计,今年山西煤炭产量有望突破12亿吨,12月份山西外送电能力将超过900万千瓦,今冬明春煤层气产量将达4
2021-11-19 13:44:34
14省份相继发布2021年企业工资指导线——引导企业合理提高职工工资今年以来,天津、新疆、内蒙古、陕西、西藏、山东、江西、山西、福建、四
2021-11-19 13:44:34
中新网客户端北京11月18日电 (记者 谢艺观)“一条路海角天涯,两颗心相依相伴,风吹不走誓言,雨打不湿浪漫,意济苍生苦与痛,情牵天下喜
2021-11-19 13:44:31
近日,交通运输部等三部门发布《关于进一步做好货车ETC发行服务有关工作的通知》。通知提到,对不具备授信条件的用户,商业银行可在依法合
2021-11-19 13:44:31
欧莱雅面膜陷优惠“年度最大”风波 涉及该事件集体投诉超6000人次美妆大牌双十一促销翻车?近日,因预售价格比双十一现货贵出66%,欧莱雅
2021-11-19 13:44:13
43 6%受访者会在工作两三年后考虑跳槽54 3%受访者认为跳槽对个人职业发展有利有弊如今对不少年轻人来说,想对一份工作“从一而终”不太容易
2021-11-19 13:44:13
超八成受访青年表示如有机会愿意开展副业 规划能力最重要64 4%受访青年指出做副业跟风心态最要不得如今,“身兼数职”已成为年轻人当中的
2021-11-19 13:44:01
发展氢能正当其时【科学随笔】氢能是一种二次能源,它通过一定的方法利用其他能源制取,具有清洁无污染、可储存、与多种能源便捷转换等优点
2021-11-19 13:44:01
“千杯不醉”的解酒“神药”能信吗?专家:网红“解酒药” 其实不算药俗话说,“酒逢知己千杯少”,酒一直是国人饭桌上至关重要的存在。尽...
2021-11-19 13:43:57
最新文章

相关推荐