APSB｜基于脱靶效应的药物安全性评价深度学习方法

2024-03-14

2024年2月29日，浙江大学药学院与中国科学院上海药物所等单位在Acta Pharmaceutica Sinica B发表文章In silico off-target profiling for enhanced drug safety assessment。

药物研发的早期安全性评价受到越来越多的关注，而药物的脱靶（Off-target）毒性是导致药物研发失败的主要原因之一。在药物发现早期识别主要的脱靶活性，有助于权衡药物的药效和药物不良反应，为研发决策提供指导。大型制药公司通常在临床前和临床研究中进行体外安全筛选和动物实验来检测安全性脱靶作用和潜在副作用，相关的研发投入较高。因此，从脱靶效应的常见靶点出发，通过计算方法建立预测模型来确定药物潜在的药物不良反应是一种相对经济高效的评估药物安全性的方法，有助于合理制定研发策略。

为此，浙江大学药学院与中国科学院上海药物所等单位合作开发了预测药物脱靶效应的深度学习模型（图1）。该方法以大规模化合物-靶点活性数据为基础，从化合物结构出发，采用多任务图神经网络预测化合物的脱靶谱（Off-target profile）。由于化合物的靶标杂泛性是其安全性的关键决定因素，因此将化合物预测的脱靶谱作为分子表征，输入到相应模型中来推断ATC编号、毒性和药物不良反应ADR。

图1.基于脱靶效应的药物安全评价深度学习模型框架

模型介绍

作者基于多任务学习建立了脱靶预测模型，分子表示采用了图神经网络Attentive FP，该网络利用图注意机制表示分子并学习相关任务。同一类靶点下的每个任务共享隐藏层和超参数设置，每个任务对应的输出层保持独立。该模型通过利用同一类靶点下分子相似的结构特征，实现了隐式的数据增强，从而有效利用了其他任务提供的信息，提高模型对重要特征的关注。

作者将构建的脱靶预测MTGNN模型与罗氏制药（Roche）的脱靶预测模型进行平行对比，MTGNN构建的脱靶预测模型在多个分类指标上取得的高分模型个数更多（图2A），优于神经网络、Auto-Sklearn和随机森林模型。BACC可以有效衡量模型预测真阳性和真阴性的能力，是脱靶模型预测结果评估时候的重要指标。如图2B所示，在每类靶点下，MTGNN的平均BACC都高于其他三类模型。在不同的数据量范围内，MTGNN的性能均优于神经网络，在靶点数据少的任务上尤其明显，表明MTGNN可以有效提升数据量有限的任务的性能（图2C）。作者还特别关注了90个人类靶点的预测结果。如图2D所示，人类靶点对应的模型表现出强大的分类性能，其中绝大多数任务的BACC都超过了0.7。大部分人类靶点任务对应的召回率值较高（>0.8），同时精确度水平在0.4至0.6之间（图2E）。这表明虽然增加了负样本，任务的阳性率较低（<25%），但模型仍能对潜在的不安全化合物-靶点相互作用保持敏感性。为防止在安全评估中忽视不安全的分子，在早期药物开发中避免假阴性非常重要，作者建立的模型可以有效缓解由于不安全的脱靶相互作用而引起的药物研发失败。

图2. MTGNN、NeuralNetworks、RandomForest和Auto-Sklearn在构建脱靶模型中的性能比较。（A）柱状图比较了每种方法在AUROC、MCC、BACC和F1指标上获得的最大分数所对应的任务数（y轴）。每个柱上的数字表示该方法得分最高的任务。（B）基于BACC的七类靶点模型在四种脱靶预测模型下的平均表现。（C）MTGNN和神经网络在不同数据量任务中的性能。柱状图显示了具有相应数据量（x轴）的任务的平均BACC（y轴）。采用ManneWhitney U检验检验显著性差异，其中：ns表示无显著性差异；* 0.01< p <0.05；** 0.001< p <0.01；*** p < 0.001。（D）不同BACC范围下（x轴）对应的人类靶点任务数量（y轴）直方图。（E）散点图描绘了人类靶点任务的召回率和精度值。每种颜色代表不同的靶点类型，圆点大小对应于该靶点的可用数据量，圆点越大表示数据集越大。y轴表示总体数据量的阳性率，x轴表示各自的指标值。

应用研究

为了探索预测的脱靶谱的有效性，作者将其作为化合物表征，分别进行化合物的ATC分类预测、毒性预测和ADR富集分析。

（1）在ATC分类预测中，作者基于MLKNN模型进行多分类建模。分别使用化合物的脱靶表示和分子的1024维ECFP4指纹作为特征，建立了MLKNN和ECFP_MLKNN两个模型，结果表明MLKNN的性能优于ECFP_MLKNN（图3A）。这强调了基于脱靶表示的多标签模型在准确排序化合物的ATC编码方面的有效性，优于传统分子指纹特征。此外，已有研究表明大量毒性药物都作用于神经系统且神经系统药物通常表现出药理多样性，ATC编码为“神经系统（N）”的化合物表现出更高频率的脱靶结合（图3B，C）。

（2）在毒性预测中，如图3D所示，脱靶表征对无毒和有毒化合物的区分更加清晰，优于分子指纹特征（图3E）。与有毒化合物相比，大多数无毒药物结合的脱靶数目明显较少（图3F）。基于脱靶表征的LightGBM分类器在毒性分类方面优于其他机器学习模型（RF、SVM和XGBoost）。作者还实现了ECFP_LightGBM，其中脱靶表示用1024维ECFP4指纹特征代替。与LightGBM相比，在相同的测试集上，ECFP_LightGBM的性能明显下降（图3G）。这肯定了使用脱靶预测结果作为化合物毒性相关特性的合理性和有效性。

图3. ATC分类模型的性能、不同ATC编码化合物/药物的脱靶预测结果分析以及有毒化合物和无毒化合物的可视化和毒性预测模型的性能比较。（A）柱状图描述了MLKNN和ECFP_MLKNN模型的性能，其中AUROC和mAP越高表明模型性能越好，rank loss越低表明性能越好。不同颜色的条形图表示不同的模型，y轴表示五折交叉训练的平均值。（B）柱状图显示了14类化合物（x轴）的结合脱靶数（y轴）。（C）热图显示了研究化合物的脱靶谱预测结果。ATC代码（A-V）表示为y轴，靶点点表示为x轴。深色（值为1.0）表示结合，浅色（值为0.0）表示未结合。（D）UMAP图表示有毒和无毒数据的脱靶谱预测结果。（E）有毒数据和无毒数据的ECFP指纹表征的UMAP图。（F）显示有毒和无毒数据的脱靶谱预测结果的热图。（G） LightGBM和ECFP_LightGBM的毒性预测性能。柱状图显示了不同度量（x轴）下五折交叉训练的平均值（y轴）。采用ManneWhitney U检验检验显著性差异，其中：ns表示无显著性差异；* 0.01< p <0.05；** 0.001< p <0.01；*** p <0.001。

（3）在ADR富集分析中，如图4所示，作者提出的ADR富集分析方法可以富集到四个撤市药物的相关ADR，特别是导致药物撤市的严重ADR。例如，在Pergolide的42个相关ADR中，有18个被显著富集（P< 0.05）。包括与Pergolide相关的高频不良反应，如体位性低血压（常见，9%）、锥体外系疾病（常见，1.6%）、失眠（常见，7.9%）和运动障碍（常见，62.4%）。并且，与Pergolide因心脏毒性而撤市一致，几个与心脏毒性相关的ADR被显著富集，包括心动过速、充血性心力衰竭和心率增加。

图4. 四种药物的ADR富集分析结果。该图显示了前50个显著ADR，红色虚线表示P值为0.05的位置。已知文献报道的药物-ADR关联用红色突出显示，颜色的深度反映了相应ADR的严重程度评分，越深表示严重程度评分越高。柱状图显示了每种药物的前50个ADR（y轴）及其相应的富集结果（x轴）——Pergolide（A）、Phenylpropanolamine（B）、Sibutramine（C）和Sertindole（D）。

此外，作者还构建了Pergolide和Sertindole的药物-靶点-ADR网络图，以Pergolide为例（图5），在已知的10个Pergolide脱靶靶点中，脱靶预测模型准确预测了其中的8个，突显了模型预测的准确性。脱靶预测结果揭示了与Pergolide的ADR相关的其他潜在脱靶，为ADR的靶点相关性提供了潜在的解释（腹泻是Pergolide的一个普遍副作用，它不仅可以归因于Pergolide已知的靶点ADRA2A，也可能与预测的新靶点SLC6A4和TACR2有关）。作者还对预测的新脱靶靶点进行了分子对接（图6），对接结果发现Pergolide与其预测的新靶点SLC6A4和HTR7以及Sertindole与新靶点CHRNA4和OPRK1之间有关键的相互作用，表明药物与靶点之间存在密切且可能高度活跃的相互作用，进一步证明了脱靶谱预测的准确性。

图5. Pergolide的药物-靶点-ADR关联图。左表列举了药物的已知靶点，右表列出了预测的脱靶以及它们各自的概率值。蓝色背景的靶点是预测靶点和已知靶点之间的重叠靶点。每个靶点相关的副作用描述在其旁边提供，箭头表示Pergolide相应的ADR。彩色ADR与预测的新靶点相关联。（如心脏毒性用红色标记，对应靶点副作用描述中的“↑in HR”、“心动过速”、“↑心力衰竭”等；失眠用紫色标注，对应靶点物副作用描述中的“失眠”和“↓sleep”）。BP：血压；HR：心率；GI：升糖指数；PR间期：从P波开始（心房去极化）到QRS复合体开始（心室去极化）的时间。

图6. 分子对接预测结合模式。（A）Pergolide与SLC6A4的分子对接（PDB: 5I73）。（B）Pergolide与HTR7结合的分子对接（PDB: 7XTC）。（C） Sertindole与CHRNA4结合的分子对接（PDB: 5KXI）。（D）Sertindole与OPRK1结合的分子对接（PDB: 6B73）。左面板：整体视图；右面板：局部视图；洋红色棒：培高利特；黄棒：Sertindole；浅灰色卡通：蛋白质；黄色虚线：氢键；蓝色虚线：pi-pi堆叠；绿色虚线：pi-cation；洋红色虚线：盐桥。

总结

总体而言，药物脱靶效应预测在促进药物研发的早期安全性评价方面发挥了关键作用。利用化合物的预测脱靶表征谱来推断ATC编号、毒性和药物不良反应ADR，为临床前识别化合物毒性的早期安全性评价提供了一个有价值的方法。未来可以通过扩大脱靶作用的范围，优化脱靶和不良反应预测模型，完善安全性预测模型，以提升药物研发的早期安全性评价。

浙江大学和上海药物所联合培养博士研究生刘金和南京中医药大学硕士研究生归一珂是论文的共同第一作者，中国科学院上海药物研究所药物设计与发现中心（DDDC）李叙潼副研究员和郑明月研究员是论文的共同通讯作者。本研究工作得到了国家自然科学基金、临港实验室、国家重点研发计划、上海药物所与上海中医药大学中医药创新团队联合研究项目和上海市科技重大专项资助。

参考文献

[1]XIONG Z, WANG D, LIU X, et al. Pushing the Boundaries of Molecular Representation for Drug Discovery with the Graph Attention Mechanism [J]. J Med Chem, 2020, 63(16): 8749-60.

[2]NAGA D, MUSTER W, MUSVASVA E, et al. Off-targetP ML: an open source machine learning framework for off-target panel safety assessment of small molecules [J]. J Cheminform, 2022, 14(1): 27.

[3]LIU J, GUI Y, RAO J, et al. In silico off-target profiling for enhanced drug safety assessment [J]. Acta Pharmaceutica Sinica B, 2024. https://doi.org/10.1016/j.apsb.2024.03.002

撰稿人 | 人工智能药物设计

责任编辑 | 邵丽竹

审核人 | 何发

责任编辑：邵丽竹

审　　核：何发