实验设置
评估过程的工作流程如图1所示。作者与化学家合作,确定了八个化学任务。然后,生成、评估并选择适当的提示信息发送给GPT模型。获取的答案会通过定量和定性的方式进行评估。
化学名预测
表 2
对于一个分子来说,存在不同类型的化学名称,比如SMILES、IUPAC名称和分子式。为了研究GPT模型是否具有基本的化学名称理解能力,作者构建了4个化学名称预测任务,包括SMILES到IUPAC名称的转换(smiles2iupac)、IUPAC名称到SMILES的转换(iupac2smiles)、SMILES到分子式的转换(smiles2formula)和分子式到SMILES的转换(formula2smiles)。结果在表2中报告(只报告了代表性方法及其在验证集上通过网格搜索找到的最佳提示设置)。在所有四个名称预测任务中,最佳方法的准确率非常低(iupac2smiles任务为0.014,smiles2formula任务为0.086),甚至为0(smiles2iupac和formula2smiles任务)。这表明GPT模型缺乏基本的化学名称理解能力。Davinci-003的准确率明显低于其他模型。
化学性质预测
分子性质预测是计算化学中的一项基础任务,它在药物发现、材料科学和化学的其他领域具有潜在应用。该任务涉及使用机器学习技术,基于分子的分子结构来预测给定分子的化学和物理性质。文章旨在进一步探索LLMs在分子性质预测中的潜力,并评估它们在一组基准数据集上的性能,如BBBP、HIV、BACE、Tox21和ClinTox。这些数据集由大量的SMILES表示的分子组成,配对具有二进制标签,突出显示正在评估的特定性质。结果以F1为单位报告在表3中,准确度在表4中。可以观察到,就F1而言,GPT模型在五个数据集中的四个上表现优于基准模型。在所考察的GPT模型范围内,GPT-4在预测分子性质方面超过了Davinci-003和GPT-3.5。在我们的调查中,我们发现扩展上下文学习(ICL)实例可以显著提升模型性能。这凸显了ICL数据的范围与我们模型预测精度之间的直接关系。与此同时,自拍总金额的研究提供了经验证据,表明在三个不同的数据集(BBBP、BACE、Tox21)上,骨架抽样优于随机抽样的性能。这可能的解释是骨架抽样分子与查询分子之间的结构相似性,可能使GPT模型更趋向于更准确的决策。
产率预测
表 5
产率预测(Yield prediction)是化学中的一个关键任务,特别是在合成化学领域中,涉及设计和合成新化合物,用于制药、材料和催化剂等各种应用。任务旨在估计化学反应的效率和有效性,主要通过计算所期望产物与反应物之间形成的百分比来量化。作者使用分类准确率作为评估指标,UAGNN作为基准模型。UAGNN在收率预测方面报告了最先进的性能。结果呈现在表格5中。在此预测任务中,GPT模型的表现低于基准模型UAGNN。然而,值得注意的是,UAGNN模型是在包含数千个示例的完整训练数据集上进行训练的。考虑到所研究的GPT模型的范围,GPT-4成为比较好的模型,超过了Davinci-003和GPT-3.5在预测反应收率方面的表现。
反应预测
反应预测是化学领域的一项核心任务,对于药物发现、材料科学和新型合成途径的开发具有重要意义。在这个任务中,给定一组反应物,目标是预测在化学反应过程中最可能形成的产物。在这个任务中,作者使用广泛采用的USPTO-MIT数据集来评估GPT模型的性能。使用Top-1准确率作为评估指标,并选择Chemformer 作为基准模型,因为它在反应预测的机器学习解决方案中具有较高的性能。结果见表6。可以观察到,与基准模型相比,GPT模型的性能明显较差,特别是在零样本提示下(Top-1准确率仅为0.004,生成的无效SMILES占17.4%)。GPT模型性能不佳的原因可以归因于对代表反应物和产物的SMILES字符串以及将反应物转化为产物的反应过程的深入理解不足。
试剂选择
逆合成
逆合成规划是有机合成化学中的一项关键任务,其涉及通过将目标分子逐步转化为较简单的前体分子来确定高效的合成途径。与反应预测相比,逆合成规划涉及从目标分子进行逆向推导,以确定其合成所需的易得反应物。在本研究中,作者使用了USPTO-50k数据集,其中包含50,037个化学反应。结果见表格8。由于GPT模型对代表反应物和生成物的SMILES字符串缺乏深入理解,其性能也不及基准模型。
基于文本的分子设计
基于文本的分子设计是计算化学和药物研发中的一项新颖任务。它涉及根据所需的分子描述生成新的分子。在实验中,作者使用包含33,010个分子-描述对的ChEBI-20数据集。该数据集按照80/10/10%的比例划分为训练集、验证集和测试集。为了进行比较,作者将MolT5-Large作为基准模型。MolT5-Large是对分子和文本之间的转换进行研究的初始工作,包括基于文本的分子设计和分子描述等任务。其次,作者还使用FCD(Fréchet ChemNet距离)评估,它允许基于用于预测分子活性的潜在信息来比较分子。由于生成的分子是以SMILES字符串格式表示的,还使用自然语言处理指标,包括BLEU、Exact Match 和Levenshtein距离来衡量地面真实分子与生成的分子SMILES之间的相似性。最后,为了评估生成的分子是否有效,使用RDKIT 来检查生成的分子的有效性,并报告有效分子的百分比。结果见表9。可以看到,在某些指标(如BLEU和Levenshtein)上,最佳ICL提示的GPT模型(GPT-4和Davinci-003)能够达到具有竞争力的性能甚至优于基准模型。尽管在精确匹配和Morgan FTS指标方面,GPT模型明显不及基准模型,但值得注意的是,作者只使用了最多10个示例,远少于基准模型所使用的训练集(包含26,407个训练示例)。这些结果表明了GPT模型在少样本文本分子设计方面的强大能力。
分子概括
分子概括生成是计算化学中的一个重要任务,它在药物发现、材料科学和化学合成等领域提供了宝贵的见解和应用。该任务的目标是在给定一个分子作为输入的情况下,生成一个准确描述该分子关键特征、性质和功能团的文本描述。作者同样使用了ChEBI-20数据集及其训练集作为ICL候选,使用传统的标题生成指标,包括BLEU、ROUGE和METEOR进行评估。结果报告在表10中。可以观察到,最佳的ICL提示GPT模型(GPT-4和Davinci-003)在一些指标(BLEU-2和BLEU-4)上可以实现竞争性的性能甚至超过基线。这表明了GPT模型在分子标题生成任务中的鼓舞人心的能力。
结论
LLM(大型语言模型)的一个显著限制是它们对SMILES字符串中分子表示的理解不足,这往往导致不准确或不一致的结果。SMILES是一种广泛使用的用于表示化学结构的文本表示方法。该字符串表示由两个碳原子(C)通过单键连接,并且氧原子(O)连接到第二个碳原子的分子。SMILES字符串可以作为LLM的输入和输出,与其他自然语言文本一起使用。然而,有几个问题使得LLM难以准确理解和解释SMILES字符串:1)氢原子在SMILES字符串中没有明确表示,因为它们可以根据标准的键合规则进行推断。LLM经常难以推断这些隐含的氢原子,甚至在简单的任务(如计算分子中原子数)上可能失败。2)同一个分子可以有多个有效的SMILES表示,如果没有正确处理或标准化,就可能导致歧义。因此,LLM可能无法一致地识别和比较由不同SMILES字符串表示的分子结构。3)LLM没有对SMILES字符串的任何内在理解,将其视为字符或子词的序列。在处理较长的SMILES字符串时,LLM依赖于字节对编码的分词技术,这可能会将字符串分解为不代表SMILES字符串所表示的分子结构和性质的较小片段或子词。由于化学信息学中的许多任务依赖于SMILES字符串对分子的准确表示,GPT模型在将结构转换为SMILES字符串(反之亦然)方面的非竞争性性能影响到反向合成、反应和命名预测等下游任务。因此,需要具有处理分子结构及其特定属性或与现有工具耦合的增强能力的模型。
参考资料
Guo, Taicheng, Kehan Guo, Bozhao nan, Zhengwen Liang, Zhichun Guo, Nitesh V. Chawla, Olaf Wiest and Xiangliang Zhang. “What indeed can GPT models do in chemistry? A comprehensive benchmark on eight tasks.” (2023).
https://arxiv.org/abs/2305.18365
--------- End ---------
撰稿人 | DrugAI
责任编辑 | 胡静
审核人 | 何发
2024-09-27
2024-12-03
2024-10-04
2024-10-14
2024-10-15
2024-10-30
2024-12-03
口服固体制剂作为临床应用非常广泛的剂型之一,其传统生产模式存在产尘量大、生产暴露环节众多以及工序复杂等特点。因此,在生产 OEB4-5 级标准的口服固体制剂时,面临的挑战是多方面的。本文从车间建设的角度出发,探讨了针对高毒性或高活性等固体制剂生产所需采取的技术手段与措施。
作者:卞强、陈宁
评论
加载更多