天然蛋白质的结构存在巨大的局限性
与20个氨基酸所连成的无数种可能性相比,我们目前对生物世界的探索还仅仅是沧海一粟。此前在biotech领域的绝大多数研究的对象是自然界中先天存在的物质(或者在这些物质基础上进行改造),并且只是停留在测量和功能性研究阶段。然而,我们显然不能仅仅满足于对天然蛋白的研究和改进——试想一下,如果人类仅仅满足于研究和改进鸟类翅膀的话就永远也不会学会飞翔;而对鸟类飞行背后所蕴含的空气动力学原理进行系统分析和创新性研究才最终让人类飞上了蓝天。
人类不应仅仅满足于对天然物质的改进
AlphaFold及随后的AlphaFold2以革命者的姿态出现在世人面前,第一次让行业之外的普通人见识到了AI相比于传统实验手段的巨大优越性;AlphaFold之后,有越来越多的科研成果如雨后春笋般出现,除了对结构的预测更加精准之外,我们对蛋白折叠背后的机制也研究得更为深入。最近几年的一些成果表明,在机器学习的助力之下,我们可以按照对功能和结构的理解来从头设计我们所需要的蛋白序列(全新设计而非基于现有蛋白或结构设计)。因此,探索之前从未触及过的更加广阔的蛋白质的“星辰大海”成为可能。
从蛋白结构预测到从头设计全新的蛋白质
1
蛋白质从头设计的近期进展
蛋白质从头设计(protein de novo design)一词大约可以追溯至上世纪80年代。1983年前后陆续有论文对蛋白质的de novo design进行报道,但彼时及之后相当长的一段时间内的蛋白设计基本都是基于已有的天然蛋白结构模板来进行(如α-helix和β-sheet),始终是在天然蛋白质所围成的小水塘里游泳。在80年代之后,关于de novo design的文章数量开始缓慢增长(数据为通过在pubmed中搜索关键词得到),2003年之后,科学界对这一领域的关注度得到了进一步的提升。
Pubmed中对de novo design关键词的搜索结果
1983-2003年间de novo protein design领域的重要成果
David Baker教授无疑是蛋白质结构计算与从头设计领域当之无愧的“一哥”。他带领着一支80人左右的科研队伍在蛋白计算相关的领域发表了大量的原创性科研成果。2014年之后,David Baker教授逐渐把研发重心转向了蛋白从头设计,并于2016年发表了经典的综述文章——The coming of age of de novo protein design。他认为随着人类认知的进步以及算法、算力的提升,我们有可能在最近几年逐步攻克蛋白从头设计领域的几大难题,这对人类的意义思考不亚于“the transition from the Stone Age to the Iron Age”。正如他曾在National Science Review的一次采访中所说:I like doing things that seem like magic,机器学习就像一位魔术师,正在将曾经的科学幻想变成现实。
我们对最近几年蛋白质从头设计领域的科研进展进行了简单的归纳总结:
●2018年9月,David Baker教授发表文章,实现了荧光激活的β-桶蛋白的从头设计。这项研究首次实现了小分子结合蛋白的从头设计,为后续设计开发可以以高精度和高亲和力与小分子结合的蛋白铺平了道路。(De novo design of a fluorescence-activating β-barrel)
●2019年7月,David Baker教授成功设计出可以通过诱导构象改变来调节其功能的开关蛋白质,这需要精确控制蛋白的亲和力与平衡常数。这项研究通过细胞实验证明了从头合成的“分子开关”可以通过调控关键蛋白的降解来精确控制下游的基因表达、蛋白定位。这是蛋白从头设计领域的又一里程碑,为合成生物学和细胞工程开辟了新的道路。(De novo design of bioactive protein switches)
●2021年,David Baker教授提出hallucination方法,证明神经网络通过大量数据的累积已经获得了“幻想”新的蛋白结构的能力。2023年,David Baker教授在2021年的研究的基础上进一步采用“family-wide hallucination” 方法从头设计出了高活性和特异性的荧光素酶LuxSit。(De novo protein design by deep network hallucination;De novo design of luciferases using deep learning)
●2022年2月,中国科学技术大学刘海燕教授、陈泉副教授团队发表论文公布了一条全新的蛋白质从头设计路线。该团队基于先前提出的“给定主链结构设计氨基酸序列”的ABACUS (A Backbone-based Amino aCid-Usage-Survey) 模型与本研究汇总提出的“氨基酸序列待定时从头设计全新主链结构”的SCUBA(Side Chain-Unknown Backbone Arrangement)模型,搭建了能够从头设计具有全新结构和序列的人工蛋白完整工具流。这是除了目前广泛使用的RosettaDesign之外的又一个蛋白质从头设计方法。(A backbone-centred energy function of neural networks for protein design)
●2022年3月,David Baker教授的研究提出了一种只根据靶点结构即可实现从头设计结合特定位点的全新蛋白的方法。研究中对癌症相关的生长因子、胰岛素受体、流感病毒蛋白等靶标进行了成功的结合蛋白设计,这个方法的提出对于创新药物研发、合成生物学等领域具有极其重要的意义。(Design of protein-binding proteins from the target structure alone)
●2022.12,Generate Biomedicines公司发表预印本论文,公布“生物学领域的 DALL-E 2 模型” Chroma,基于扩散模型生成符合特定功能特性和结构要求的全新蛋白质。(Illuminating protein space with a programmable generative model)
2
站在研究范式转变的临界点
我们总是说生命科学是一门实验科学。经过了多年的学校教育与产业打磨之后,我们已经习惯了对成千上万种小分子的活性进行筛选,习惯了“尝试——失败——再尝试”这样的工作模式。由于生命体系极其复杂,信号传递、生化反应的影响因素众多,因此传统意义上的生物学研究的主要途径便是细胞、动物水平上的实验。一言以蔽之,经验主义是传统的生物学研究的核心思想。在科技发展日新月异的今天,尽管有着二代测序、高通量筛选、基因组学等技术的加持,但创新药物的研发过程本质上仍然是几十年前那种筛选+试错的模式,而这种模式在目前日益见长的研发成本、逐渐细分的市场空间之下已经不堪重负。
此外,创新药的研发过程涉及成千上万个繁琐复杂的步骤,再加上法规与监管方面的要求颇高,因此相比于其他行业而言,创新药行业对创始人的经验累积有着极高的要求,所以我们看到大部分biotech领域的创始人的年龄都在40-60岁之间,他们大多具备20-30年的项目管理和研发经验。而由于对传统研发模式驾轻就熟,这批创始人往往都再也难以对AI以及其他“花里胡哨”的创新性技术平台提起兴趣。种种迹象都指向了一个悲哀的现实——生物医药行业已经变成了目前拥抱技术进步变革最慢的行业之一。
在经验主义之外,生命科学领域的研发与创新是否也可以通过计算来完成?蛋白质从头设计领域的进展为这一问题给出了肯定的答案。如果说AlphaFold、AlphaFold2的问世标志着AI开始正式担当起生命科学研究的辅助角色,那么de novo protein design的兴起就标志着AI已经正式成为生命科学领域创新的源头之一。可以预见,筛选+试错的研发范式将随着AI算法与模型的不断完善而逐渐改变。
尖端技术向其他产业的技术迁移是促进人类技术进步和科技革命的重要因素。以互联网技术为例,随着1981年前后全球互联网的搭建完成,原本只是作为一个军方项目进行开发的互联网技术开始走向大众并开始在社交、商务、娱乐、物联网等领域得到应用,这一切都极大地提升了人类的生活质量和工作效率,互联网改变了全人类的面貌。而对于biotech技术来讲,由于技术和行业本身的特性,我们很难将以生物医药为首的biotech领域的核心技术推广到其他产业。而AI,尤其是以蛋白质从头设计为代表的新技术将生命科学的范式从“经验主义”转向“计算主义”,“按需定制蛋白”使得biotech技术向其他行业的转移和扩散成为可能。可以想象,除了生物医药行业本身之外,蛋白质从头设计还将会在合成生物学、农业、医美、消费、环保、材料学、DNA存储等领域寻找新的突破点,继而引发全产业链条的生物学革命。
3
当前AI+biotech领域存在的问题
蛋白质从头设计领域存在着巨大的想象力。还记得本文的开头的数字吗?这个领域的想象力有20200这么大。也正因为如此,包括蛋白质从头设计在内的整个AI+Biotech领域已经成为了风险投资所追逐的热点领域。然而不得不提的是,狂奔之中的AI+Biotech领域也存在着许多问题,在这里简单谈谈和玉资本医疗团队对AI+Biotech行业生态的观察与思考。
首先是商业模式上的问题,这个问题在绝大多数AI Biotech公司身上都存在。在日益丰富的算力资源的加持之下,AI的力量几乎是毁灭性的——理论上来讲,一个高效的AI平台能够省去繁琐的早期分子发现步骤,在短时间内生成大量的分子并对其有效性进行初步验证。然而问题也随之而来:大多数AI制药公司即使能够在几个月的时间里完成一大批分子的设计和验证,其正式立项的分子个数仍然为3-5个,完全没有体现出AI技术平台的巨大优势。也就是说,这些创业者即使在技术层面上大刀阔斧地完成了研发范式上的转变,其中的大多数仍然沿用着既往的商业范式进行后续管线的推进。面对后续管线推进上的乏力,很多创业者转向了合作研发与外包服务,然而这些公司中的绝大多数在商业化的道路上也举步维艰。与研发范式上的创新相比,探索新的商业范式似乎更是一道不可逾越的鸿沟。
人工智能技术飞速迭代所带来的另外一个问题就是我们应当如何看待这一领域的技术创新。随着底层算法技术、算力的日益完善和壮大,在AlphaFold问世之后,AI技术在蛋白结构领域的相关研究已经呈井喷之势,这一时代堪称biotech技术的“寒武纪大爆炸”,突破性的研究成果也不再是顶级科学家的特权。随之而来,当学术研究的资金和资源壁垒低到一定程度之后,AI技术已经“飞入寻常百姓家”,我们渐渐发现这一领域技术创新正在变得不那么稀缺。然而,生物医药产业的研发周期普遍为8到10年,当一个创业者凭借着自己世界一流的AI技术拿到天使投资之后,他在之后这8到10年的时间里会发现世界有上成千上万个同行已经把该领域的技术迭代到“迭妈不认”的水平,生物医药行业的“定型即落后”的魔咒在AI时代变得更加明显。在新的技术不断问世的当下,你会突然发现自己1年之前投资的那项技术变得 “没有那么香了”。在这样的情况下,投资者们应该怎样去判断不断迭代的新型技术所带来的商业价值?
AI Biotech公司应该以怎样的姿态活下去?投资者们又应该以什么样的态度去寻找和追逐创新性的技术?这是热火朝天之下的整个行业都需要认真思考的问题。这个行业需要逐利者来驱动整个行业的进步,但更需要坚持长期主义的逐利者来塑造整个行业的生态。
内容来源: 和玉资本-夏玉坤
责任编辑: 胡静
审核人:何发
2024-09-02
2024-09-04
2024-09-23
2024-08-28
2024-09-27
2024-08-27
2024-09-09
近年来,RNA疗法及其在疾病治疗中的潜力备受关注,今年诺贝尔生理学或医学奖授予微小RNA(microRNA)领域的研究更是将这一热度推向高峰。在新药研发蓬勃发展的今天,小核酸药物被视为继小分子药和抗体药之后的“第三次制药浪潮”的关键力量。
作者:崔芳菲
评论
加载更多