蛋白质是人体内重要成分,发挥着各种作用。但是如何对蛋白质的功能进行设计和改造,使它成为满足各种应用需求的产品?上海交通大学洪亮教授团队今天(3月22日)发布的蛋白质设计模型“Venus”,让过去需要经验丰富的专家通过数以万计的实验试错才能完成的蛋白质设计变成了一件“简单工程”。
洪亮团队将AI与蛋白质设计与改造相结合,建立了全球最大的蛋白质数据集,基于该数据集训练的模型,可以精准、高效地预测、设计蛋白质的功能,把蛋白质生产由“缓慢的试错”变为“高效率的精准设计”。同时,配备行业领先的自动化设备,该成果已经产业化落地,并且已有多款产品落地,比如检测阿尔兹海默症、胰腺炎等检测试剂等。
建立全球最大的蛋白质序列数据集
蛋白质由长度为数百个到上千个不等的氨基酸序列构成。洪亮团队建立的蛋白质序列数据集Venus-Pod(Venus-Protein Outsize Database)含有近90亿条蛋白质序列,包含数亿个功能标签,是全球数据规模最大、功能批注标签最多的数据集,是另一行业知名模型——美国ESM-C模型训练用的21亿蛋白质序列的4倍体量。
该数据集包含36.2亿条陆地微生物蛋白质序列、26.4亿条海洋微生物蛋白质序列、24.3亿条抗体蛋白质序列、0.6亿条病毒蛋白质序列,覆盖从常规地表生物到极端环境微生物的蛋白质序列信息,尤其是配备的数亿功能标签(蛋白质工作的温度、酸碱度、压强等)。
这些数据意味着什么?洪亮解释称,该数据库构成了巨大的“蛋白质矿藏”,使得人类有可能挖掘新的蛋白或者生物催化剂,助力生物医药和合成生物学的快速发展;而且AI大模型有望通过海量数据的学习和掌握自然界蛋白质的进化模式,从而进一步设计高质量的蛋白质产品。
按需设计蛋白质,让研究人员从重复劳动中解放出来
蛋白质是由20种氨基酸组成的一条高分子链,这个高分子链会扭曲并折叠成独特的三维结构,并赋予蛋白质特定的生物功能。2024年,获得诺贝尔化学奖的DeepMind团队,正是利用AI技术精准解析了蛋白质序列到三维结构的关系,解决了困扰生物学家长达50年的基本难题。但是,如果蛋白质的氨基酸序列稍作改动,功能会发生改变甚至完全丧失。换言之,要设计出一款成功的蛋白质产品,除了三维结构之外,还要事先预测和设计它的功能。洪亮团队正是直接针对“功能预测”这一目标,将复杂的蛋白质设计变成以需求为导向,配合少量实验输出结果的简单过程。
Venus系列模型不仅可以通过“AI定向进化”,对一个不尽如人意的蛋白质产品的多种性能进行优化,还可以通过“AI挖酶”,在海量的未知功能蛋白质数据集中,“海选超能战士”,精准发掘满足苛刻应用需求的具备超常规功能的蛋白质,比如极度耐热、极度耐酸、极度耐碱、极度耐胃肠消化等功能的蛋白质。这些超常规功能的蛋白质在生物技术、医药研发和工业生产中具有巨大的应用潜力。
与此同时,配合Venus系列模型的全球首款低通量大体积蛋白质表达、纯化与功能检测自动化一体机,对蛋白质的表达、纯化与检测任务,较人力效率提高近10倍,简言之,“原本需要三个研究生轮班三个月才能完成的设计实验,现在一个研究生花三天就能完成了,甚至未来科研人员只需要提问,就可以由AI和自动化来解决问题。”洪亮解释。
落地产品助力阿尔兹海默等疾病的诊断
从基础科研到产业应用,在任何科学领域都是一项从0到100的挑战,经过Venus系列模型设计的多款蛋白质已经实现了落地产业化。
以国内生长激素龙头金赛药业的单域抗体耐碱性改造为例。提升蛋白质的耐碱性历来是一项极具挑战性的工作,洪亮团队借助该模型,不到 1 年将普通单域抗体耐碱性提升 4 倍,每年为金赛药业节约上千万元成本。该成果已实现多个批次 5000 升放大生产,成为全球首款由大模型设计并规模化生产的蛋白质产品。
另一项Venus系列模型的创新应用则是对某体外诊断头部公司碱性磷酸酶(ALP)的改造项目。ALP 因高稳定性和灵敏度被广泛用作标记酶,其活性越高,检测灵敏度越高,从而能够检测到极低的生物标志物,但提升ALP的活性一直是一个挑战。Venus 系列模型成功优化 ALP,使其分子活性超国际头部公司产品 3 倍,为超敏检测诊断(如心肌梗塞、阿尔兹海默症)带来巨大价值。目前,改造后的 ALP 已进入 200L 规模放大生产阶段,标志着 Venus 系列模型成功实现产业转化。