现在,奥地利科学院分子医学研究中心CeMM的研究人员与辉瑞公司合作,开发了一种方法来预测数百种小分子与数千种人类蛋白质的结合活性。
这项大规模研究揭示了数以万计的配体-蛋白质相互作用,通过探索这些相互作用,从而可以开发化学工具和治疗方法。
此外,在机器学习和人工智能的支持下,它可以“公正”地预测小分子如何与活体人类细胞中存在的所有蛋白质相互作用。
相关研究以《Large-scale chemoproteomics expedites ligand discovery and predicts ligand behavior in cells》为题,于4月26日发表在Science杂志上。
大多数药物都是影响蛋白质活性的小分子。如果充分理解这些小分子,它们也是表征蛋白质行为和进行基础生物学研究的宝贵工具。
鉴于这些重要作用,令人惊讶的是,对于80%以上的蛋白质,迄今为止尚未发现小分子结合物。这阻碍了新药和治疗策略的开发,同样也阻碍了对健康和疾病的新生物学见解。
图1 配体发现方法的示意图
为了缩小这一差距,CeMM的研究人员与辉瑞公司合作扩大并扩展了一个实验平台,使他们能够预测数百种具有不同化学结构的小分子如何与活细胞中所有表达的蛋白质相互作用。
这产生了数以万计的配体-蛋白质相互作用的丰富目录,现在可以进一步优化这些目录,来代表进一步治疗开发的起点。
具体而言,研究人员使用化学蛋白质组学方法来绘制人类蛋白质组中蛋白质-配体相互作用的图谱。通过附着在光活化交联剂的约400个配体片段的文库,作者鉴定了约2500 个蛋白质中的约50,000个具有统计显著性的相互作用,其中包括大部分之前没有已知配体的靶标。
并通过生化实验验证了这些结果,从筛选中鉴定出E3连接酶粘合剂和跨膜转运蛋白抑制剂。
集成机器学习二元分类器进一步实现了细胞中片段行为的可解释预测。由此产生的片段-蛋白质相互作用和预测模型的资源将有助于阐明分子识别原理,并加快迄今为止未药物化的蛋白质的配体发现工作。
在该研究中,由CeMM PI Georg Winter领导的团队通过开发细胞转运蛋白的小分子结合物、细胞降解机制的成分,以及参与细胞信号转导的未被充分研究的蛋白质来证明这一点。
图2 片段混杂预测
此外,利用大数据集,开发了机器学习和人工智能模型,可以预测其他小分子如何与活人类细胞中表达的蛋白质相互作用。
研究人员利用完全功能化片段(Fully functionalized fragment,FFF)描述符,将其与一个快速、轻量级、全自动的 ML 算法相结合,用于二元分类。
简而言之,首先根据蛋白质相互作用计数的阈值将筛选的片段标记为混杂(1)或非混杂(0)。然后,使用基于Transformer的ML模型(TabPFN)将化合物的FFF描述符映射到分类分数(0 或 1)。
TabPFN是一个完全学习的模型,它近似于贝叶斯推理,不需要超参数调优,因此可以根据化学蛋白质组学分析数据直接获得高性能的ML分类器。
通过这种方法,混杂模型还可以了解结合蛋白质的特异性。
“我们惊讶地发现AI和机器学习如何提高我们对人类细胞中小分子行为的理解。我们希望我们的小分子-蛋白质相互作用目录和相关的 AI 模型现在可以为药物发现方法提供一条捷径。”,Winter说。
为了最大限度地发挥科学界的潜在影响和实用性,所有数据和模型都通过网络应用程序免费提供(开源地址:https://ligand-discovery.ai)。
辉瑞公司副总裁兼药物设计主管Patrick Verhoest博士说:“这是工业界和学术界的杰出合作。我们很高兴向大家展示,我们团队三年密切合作所取得的成果。这是一个伟大的项目。”
参考资料:
https://phys.org/news/2024-04-shortcut-drug-discovery-method-large.html
撰稿人 | ScienceAI
责任编辑 | 邵丽竹
审核人 | 何发
评论
加载更多