新兴技术对CHO细胞为基质的生物制品的影响

2022-08-29

CHO细胞是现代生物治疗产品生产最常用的平台。目前，在生物制造过程中应用的CHO细胞系有很多，它们具有不同的特性和独特的基因型及表型。这些差异限制了采用生物过程优化和细胞系工程改造等常用手段促进产量和质量的提高。将组学方法融入当前生物制造过程中，可以补充传统方法，最大限度地从CHO工程和生物过程改造中获益。为了突出组学技术在 CHO生产中的应用，我们讨论了基因组学、转录组学、蛋白质组学、代谢组学、脂质组学、流体组学、糖组学和多组学技术的应用现状和局限性，以及它们对未来生物生产的潜力。多组学方法目前正在用于改进CHO生产过程，但是这些技术的应用仍然有限。随着越来越多的CHO组学数据积累并集成到系统模型中，我们期望在产品产量和质量方面取得显著的提高。虽然个体组学技术已为生物生产提供了渐进式的改进，但我们很可能通过对单个CHO细胞系应用多组学和系统生物学方法，获得更大的收获。

CHO是生物制品市场上生产生物治疗蛋白的首选表达系统。第一个CHO细胞系是在1957年由 Puck 建立的，从那时起，许多不同的细胞系逐渐被建立起来，例如CHO-S\CHO-K1\CHOK1SV\DG44等等。一般来说，CHO细胞是健壮的，能够在悬浮培养中生长到高密度，同时在大规模生物反应器中保持高活力，并能产生每升1-10克的蛋白质类生物治疗剂。通常，稳定转染的克隆被挑选出来以表达感兴趣的生物药学相关蛋白。一旦建立细胞系，通过生产优化就可以确定产量和品质。这种过程开发工作的目标是在保持产品的关键质量属性的同时最大限度地提高产量。这通常是通过优化培养基和生产工艺来实现的。从历史上看，哺乳动物细胞培养基和饲料开发一直基于迭代经验方法，这既费时又昂贵。虽然开发工作已经得到改善，在一个代表大规模生物生产过程的系统中转向高通量组分筛选，但仍然存在一个财政推动力，以减少与基础培养基、饲料和过程开发相关的时间和精力。在渴望短期开发时间，平台过程和定义系统的中期，市场继续推动蛋白质产量的限制。虽然各种各样的 CHO细胞谱系具有独特的特征和新陈代谢特征，可以用来满足特定的生产需求，但细胞系的多样性和已被证实的可塑性，使得通用过程优化的实施变得困难。为了继续提高生产力水平，需要对宿主细胞的特性和感兴趣的克隆有更深入的了解。利用基于组学的方法作为生物过程优化的工具已经讨论了十多年，但是有关CHO方面的应用甚少。

在这篇综述文章中，我们描述了组学技术，包括基因组学，转录组学，蛋白质组学，代谢组学，脂质组学，流体组学，和糖组学，它们可以带来对细胞功能的更深入的理解和帮助确定最佳生产系统的轮廓。这些技术中的任何一个都可以在生物治疗开发单个阶段中加以利用，但是开发周期中的单个步骤主要受到这些技术的特定子集影响。通过先进的分析能力和新颖的信息学方法将这些组学方法结合起来，将使优化科学家能够设计细胞系和优化细胞培养，从而革命性地提高产量。

基因组学

虽然在20世纪50年代至70年代被大量用作古典细胞遗传学研究的模型，但CHO细胞的基因组还没有得到广泛的研究。直到最近 CHO群体才开始通过下一代测序平台进入基因组时代。

虽然CHO蛋白的产量在过去几年里增加了100倍，但这些进步受到了细胞自然特性和生物学特性的限制。在生物加工过程中常用的两种细胞系CHO DXB11和CHO DG44，利用缺乏二氢叶酸还原酶(DHFR)活性进行选择和基因扩增。这些修饰是通过使用化学和电离辐射突变引入的。增加产量的额外方法包括更有效的克隆筛选和利用细胞表型的优化系统策略(如培养基组成、培育策略和生产条件)。在很大程度上，这些改进是在没有理解所涉及的潜在分子和生理因素的情况下完成的。

组学方法的第一个突破是对CHO-K1细胞系的测序。这个祖先细胞系的第一份草图产生了2.45Gb 的基因组序列，其中包含大约24,000个全面注释的基因，并通过一个在线数据库CHOgenome.org公开发表。目前正在努力扩展数据库，以包括更多的 CHO细胞系。然而，截至本文发表，CHO-K1仍然是唯一公开可用的 CHO基因组。

由一个细胞群组成的有限数据集给永生化细胞系带来了固有的问题。CHO-K1\CHO-S\DG44和其他细胞系已经在许多实验室经过大量的突变和克隆选择培养生长了几十年。这些压力可以导致显著的遗传多样性。例如，Derouazi 等人描述了 CHO DG44和几个重组衍生细胞系的染色体状态。与二倍体中国仓鼠细胞的22条染色体相比，CHO DG44细胞只有20条染色体，其中只有7条是正常的。此外，每种细胞系都有因不平衡的染色体重排而引起的许多其他的小异常染色体。进一步的基于BAC的物理图谱为每个变种鉴定了独特的核型。

聚焦于特定序列的改变， Lewis 等人利用NGS筛选了6种常见的CHO细胞系。他们发现了超过370万个单核苷酸多态性(SNPs) ，以及551240个小于5bp 的插入或缺失，其中319个被预测会导致框架移位突变。4241个基因存在于复制区，导致细胞系间拷贝数变化，而至少有一个细胞系中有17个基因完全缺失。许多这些突变和拷贝数变异(CNVs)靶向与生物加工相关的途径，包括细胞凋亡和糖基化。Kaas 等人通过从9种CHO细胞系得到的测序图谱获得的信息，与中国仓鼠基因组相比，发现相似的SNPs、 Indels 和更大的遗传缺失。他们观察到，在9种细胞系中平均有48个基因被完全删除。平均3611个基因有一个拷贝，2184个是三倍体或多倍体，有趣的是，每个染色体都显示了一个不同的 CNVs 特征。染色体2、5、7、9 / 10和 x 的 CNVs 发生率最高，而染色体1和4的 CNVs 发生率最低。这样的观察可以帮助研究人员为他们感兴趣的基因定向插入位点确定稳定的基因组区域。

上述研究为研究CHO细胞系之间的差异性提供了有价值的视角，但这些研究仅仅提供了在生物制造工作流程之前对基因组的静态观察。转基因整合、克隆选择和生物制造过程展现的是对细胞的动态进化压力。Feichtinger 等研究了6个 CHO-K1衍生细胞系通过适应不同的培养基、适应悬浮培养、延长培养时间、通过细胞分选和亚克隆选择表型变异等途径的遗传进化。每一个进化步骤都被拿来和进化过程中的下一个直接步骤进行比较。结果分为小突变和结构变异(重复、缺失、倒位和易位)。小突变的比较分析表明，43-49% 的突变是进化阶段新获得的。每个阶段的小突变数量从592,276到1029,252个事件不等。独特的结构变异甚至更为普遍，70% 的突变是不同阶段之间的新事件。这些变异的数量从7245到11244。易位占这些变化的80%。

基因组学的一个子集集中在线粒体基因组上。线粒体调节与生物加工有关的所有细胞过程。例如，线粒体在细胞凋亡中的关键作用以及它们在泌乳和呼吸作用中的作用早已被证实。除了功能相关性之外，线粒体 DNA本身具有几个特征，使其成为一个理想的研究目标。首先，与可能压倒性的核基因组大小相比，分析线粒体基因组的长度约为16kb，包含37个基因(13个蛋白质、22个转录因子和2个核糖体 RNA) ，每个基因都缺少内含子，带有很少或没有基因间序列。其次，线粒体DNA的突变率比核基因组高5-15倍，这是由于DNA修复机制效率低下以及线粒体基因组与活性氧类相邻。最后，线粒体脱氧核糖核酸很容易被丰富起来，使其适合于超深NGS。单个细胞可能含有数百到数千个线粒体，导致形成野生型和突变型线粒体基因组的混合物。超深度测序可能是必要的，以探讨异质性对生物生产的影响。Kelly 等人测序了一个由22个CHO细胞株组成的样品，以确定细胞间的突变以及单个培养物的异质性。CHO细胞在不同细胞系中表现出相当大的异质性。所有测试的细胞系都包含至少一个，多达30个，线粒体基因组与参考线粒体基因组相比的突变。在22个CHO细胞系中共发现197个同质、异质变体，所有蛋白质编码基因、8个转录因子和rRNA中均发现 SNP或 Indel突变。虽然线粒体脱氧核糖核酸的异质性对于理解它们对生物生产的影响提出了挑战，但是这些知识可能会引导出一些新的方法，包括细胞工程和筛选技术。

CHO细胞工程到目前已经获得了巨大的进步。这与2011年后公布的基因组序列注释有很大关系。如上所述，许多这些成就是通过非特定的手段取得的，然而，应用高效的基因组编辑工具具有特定的目标可能会带来 CHO能力的革命。随着诸如CRISPy这样的在线基因组编辑工具的推出，辅助CRISPR基础CHO细胞的编辑，我们已经见证了这一进程的开始。通过靶向调节增殖、细胞凋亡和产生乳酸的蛋白质来提高细胞生长速度和寿命的工作已经开始。然而，用于这个工具的 CHOgenome.org CHO-K1序列，是由依赖血清的粘附细胞产生的。Feichttinger 等人和其他研究的结果表明，这种遗传相关性可能与研究人员使用的 CHO衍生细胞系有很大的不同。

基因组分析在异源的大规模公开可用的在线数据集的背景下进行解释时，通常会得到显著的改进。为每一个CHO变种建立基因组库对于CHO工程的发展可能是至关重要的。在组学时代，基因组学信息对 CHO细胞来说是无价的，尤其是转录组学和蛋白质组学。

表观遗传学

在过去的二十年里，表观遗传学领域在能力和知识方面取得了巨大的进步。受生理或环境信号影响，许多酶和机制通过甲基化和染色质修饰控制表达已经确定。与 CHO基因组学一样，CHO表观遗传学仍停留在鼻腔阶段，然而，已经进行了充分的研究，暗示了表观遗传学在生物制造中的潜在作用。

通过DNA甲基化和组氨酸修饰引起的转基因表观沉默早已确定。因此，这些机制被认为是导致产量不稳定的可能因素。要全面理解基因型和表现型之间的表观遗传联系，需要了解CHO细胞表观遗传学的整体特征。这还没有完成，但是 wippermann 等已经能够利用亚硫酸盐序列和定制设计的CHO特异性微阵列来确定CHO DP-12细胞产生甲基化IgG的情况。这是第一次以单核苷酸分辨率绘制表观基因组图谱。他们证明CHO DP-12细胞表现出与大多数哺乳动物甲基酶相比的整体低甲基化和启动子中CpG岛的高甲基化。甲基化谱也鉴定了与表达谱相关的功能性基因簇。这些结果表明表观基因组与表型之间存在强烈的相关性。Veith 等人证实，克隆选择期间，细胞系显示特定和独特的表观遗传和染色质特征，与表达相关。Feichtinger 等人还通过适应、选择、传代和批量培养过程跟踪表观遗传变化。他们注意到培养时间对甲基化的影响最小。然而，当外界压力通过生长介质的变化或其他过程的变化对细胞施加时，甲基化就变得更具动态。最大的变化是在经过多次亚克隆的细胞中观察到的。在分批培养过程中，细胞也会受到类似的压力，在此过程中，细胞可能会经历养分供应量下降和废弃代谢物浓度增加的情况。这些因素迫使细胞发生快速转录变化。作者在批量生产的三个阶段（指数增长，平稳生长，衰退），能够鉴别出不同的甲基化和组蛋白模式。

结合基因测序和表观遗传学的深刻理解，可以从两个主要方面影响CHO生产克隆细胞系的长期稳定性。首先，基因组研究比较大量的CHO变异可以确定更有可能抵抗沉默的基因组位点或导致更稳定的转基因整合的显著变异。例如，这些发现可以用于重组酶介导的盒式交换系统，如 Cre / loxP和Flp /FRT，在预测稳定的结构域的工程化重组位点促进针对性的整合。其他DNA元素，如在启动子和增强子元素之间插入绝缘体，可以阻止涉及乙酰化的基因的表达，从而提高产品的稳定性。普遍存在的开放染色质元件也可以用来防止异染色质的形成，从而防止沉默。其次，甲基化和组蛋白模式在克隆选择的早期阶段可以作为筛选工具。表观遗传机制已被证实与转基因表达谱相关。特异性甲基化和组蛋白性质可以在细胞系发育的早期阶段筛选和丰富稳定的生产者。这将使开发人员能够在越来越早的阶段将精力集中在产品质量和生物工艺开发上。

对CHO基因组和表观遗传学有全面了解其作用是相当大的，同时挑战也是艰巨的。正如上面两节所描述的，每个CHO细胞谱系可能有截然不同的基因型和表型。此外，在克隆选择和生物处理后工作就完成了。所创建的CHO细胞系可能与其来源的亲本细胞有显著不同。最后，CHO细胞在间歇培养过程中进行表观遗传修饰。到目前为止，这些过程大多只在文献中提到过。为了全面描述这些变化，需要付出相当大的努力来对所有常用的CHO谱系进行全面的测序和注释。理想情况下，研究人员将测序和表征他们的特定细胞，但这可能是不可行的。在这方面，CHO团体可以向癌症研究人员学习。虽然任何一种癌症都可能具有独特的基因型和表观型特征，但是癌症基因组图谱等公开可用的数据集发布了来自多种癌症类型的大量不同患者的基因组和表达数据样本集，帮助研究人员识别多种癌症中可利用的元素，这些元素在观察单个样本时可能会被忽视。如果共享多个变量之间的可靠数据，就有可能发现与多个变量相关的类似可利用特征。问题仍然是谁愿意从事这项工作，以及创新者是否会选择放弃专利以分享这一信息。毫无疑问，共享这些数据集会加速生物生产的进步。

转录组学

各种组学技术在提供CHO细胞生理学的系统观点方面发挥了作用。转录组学涉及在不同条件下分析基因表达水平，以揭示细胞机制，对环境变化的反应，治疗和作用机制。在 CHO生物加工中的应用包括识别细胞通路和对不同条件的反应，以便优化生产力和治疗产品质量。

定量反转录聚合酶链式反应(qRT-PCR)被广泛用于测量基因表达的小规模研究，涉及一个子集的基因或从高通量实验中确定目标，并受到设计探针需要mRNA序列信息的限制。收集高通量转录数据库的技术包括微阵列和RNA-测序。在前者中，将两个荧光标记的cDNA样本与涂有寡核苷酸的载玻片杂交，可以对样本进行差异定量，但也需要知道mRNA序列知识。在中国仓鼠基因组序列出现之前，小鼠和大鼠的DNA阵列被用于基于 CHO的微阵列探针设计。随着C. griseus 和 CHO-K1基因组的发表，包括一个带注释的Refseq 基因组，转录组学研究能力有了很大的提高。事实上，随着测序成本的降低和自动数据分析工具的出现，RNA测序正成为目前 CHO团体使用的最流行的方法。除了过程优化的 mRNA分析，Rna-seq 还提供了广泛的应用，包括转录起始位点的分析或小型非编码RNA的发现。MicroRNA，20-24nt 序列参与多个细胞过程的调控，是小型非编码RNA的一个例子，有潜力成为 CHO细胞工程靶标。通过结合几个靶基因和转录后抑制mRNA，miRNA可以影响多重调节通路。最近改进了KEGG 途径基因注释，使得基于RNA测序数据可以对CHO细胞直接分析。

高通量技术的增长本质上产生了过多的转录数据。不同的技术有不同的数据库。成立了CHO细胞基因组学联盟，以确保CHO基因组信息可以公开获得。不同CHO细胞系的数据库包括NCBI序列读档案和 UniProt。Gonzales 等人开发了一个基于 Python 的应用，ATGC转录组学，它使用一个本体驱动的数据库来提供可伸缩的存储选项、数据集成和数据库管理。使用微阵列产生的数据可以按照MIAME标准上传到基因表达综合数据库(GEO; http://www.ncbi.nlm.nih.gov/geo/)。此外，仓库解决方案，intermine 和 biomart，已经被创建用于整合不同的生物数据集和支持分析。

利用 roche 454测序技术和 newbler assembler，becker 等整合了不同CHO细胞系的18.4 亿可读结果，重新构建中心糖代谢途径和用于蛋白质N- 糖基化的糖的生物合成路径，使目标途径工程改进生物过程特性。虽然 blas 等人通过微阵列鉴定细胞系特异性标记，目的是在细胞系发展中使用这些标记，vishwanathan 等人利用来自6个CHO细胞系的RNA测序数据，构建微阵列来确定主要的功能途径。关于生长、新陈代谢和产品一致性的变异信息被收集起来，用于细胞系工程改造。Clarke和他的同事进行了一项基于 affymetrix 的转录组学研究，使用了70个样本的校准和10个样本的测试设备，为固定相、温度变化的 CHO培养基中的特定生产力创建了一个附加模型。在另一项研究中，clarke 等人对121个CHO 细胞在不同条件下的大规模微阵列研究进行了共同表达网络分析。他们确定了五个基因簇可以作为表型特征(滴度，生产力)的生物标记物。为了确定生物过程参数的生物标志物，以及制造更有效的CHO细胞的目标，doolan等人用wyehamster3a microarray 分析了30个 CHO对数相培养物。他们发现了一些微RNA调控的预测目标，包括17-92个集群成员以提高生长速度。

MiRNA作为负面转录后调节因子，其影响被 hernandez bort 等人通过评价在CHO-K1培养的不同生长阶段的mRNA和 miRNA表达模式进行了研究。基于对超过100个差异调节的 miRNA 的功能聚类，他们发现大多数的 miRNA 在从指数增长到生长停滞的转变过程中与 mRNA靶标呈反相关。使用 miRNA控制生物过程是有利的，因为它们不会增加生产细胞的转化负担。Kang 等人描述了一种基于微阵列转录组学和蛋白质组学相结合的方法来确定生产力、生长速度和细胞大小之间的相关性。在许多相关性中，与生产力正相关和负相关的排名前列的基因是钙信号、Tmem20和 Rcan1等调节因子。

目前，转录组学方法存在许多缺陷。例如，为了提高统计显著性，必须用微阵列分析足够数量的生物和技术复制样本。此外，来自微阵列或RNA测序分析的结果必须通过其他方法(例如，qrt-pcr，northernblot)来确认。变异性的其他来源可能源于用于分析的方法或软件，例如微阵列质量控制项目为选择标准分析方法提供了指导(例如，使用 p 值结合折叠变化)。基因集分析(kegg 途径，基因本体术语，基因集富集分析，字符串)可以进一步帮助提高结果的显著性。获得高质量的参考基因组对于分析转录组数据至关重要。虽然mRNA 水平可能不总是与蛋白质水平直接相关，但将转录组学与蛋白质组学等其他组学技术相结合，对于全面了解细胞生理学和提高生物工艺参数将非常有价值。为了合理设计细胞以满足高效生物过程的要求，转录组学的应用可以提供一个对相互关联的途径更好地理解，对糖基化和其他质量属性的影响。生成的数据可用于优化工艺条件，细胞培养基和培育方式(营养水平和时间) ，减少有毒副产物，稳定蛋白表达。

蛋白质组学

通过使用质谱仪，蛋白组学已经快速发展成为生物生产的一个关键工具，可以对高产克隆蛋白进行特征描述，鉴定蛋白质和酶在生物治疗蛋白质生产、生长和代谢过程中的重要作用。使用无标记或等压 / 串联质谱标记方法精确定量蛋白质的功能，已经进行了几项关于高产克隆提取蛋白组学特征的研究、宿主细胞蛋白污染、分泌蛋白质以及使用点击化学技术分泌糖蛋白质等亚蛋白质组的蛋白质特征的研究。Sommeregger 等对两种表达具备不同热稳定性的相似SCVF抗体 CHO细胞进行了深部蛋白质组和转基因递送的比较，确定克隆的特异性生产力和产品的稳定性都会引起CHO蛋白质组的变化，例如，表达低热稳定性抗体片段的克隆相对于热稳定性较好的产品表达更高水平的涉及增殖、凋亡和细胞应激的蛋白质，而与高特异性生产力相关的蛋白质则与折叠和mRNA翻译相关。这种对CHO细胞在不同条件下蛋白质表达的深入研究，为过程优化和定制工程CHO细胞改善新陈代谢或生产属性的努力打开了大门。

各种质谱仪可以通过不同的电离方法产生消化蛋白质的质谱。例如，基质辅助激光解吸光电离时间 (maldi-tof) ms 电离肽消化已与化学基质共结晶。这种技术需要从2d 凝胶或半纯混合物中分离出半纯化的蛋白质，这种分离过程耗时且低通量，通常每个样本能鉴定出数百到一千个蛋白质。Wingens 等已经使用这种方法从产生抗体的CHO细胞裂解物中检测出1300个蛋白点。然而，由于二维凝胶电泳的动态范围和重现性的限制，以及分离单个斑点进行鉴定的过程很简单，最好使用电喷雾离子法液相色谱质谱仪(esi-lc / ms)进行分离、定量和定性。在 CHO 细胞的基因组级蛋白质组分析方面，lc / ms / ms 由于其动态范围的限制，需要采用一维 sds 凝胶或强阳离子交换分馏等多重分离/分馏步骤，baycin-hizal 等对 CHO-k1细胞通过多片段技术进行了基因组级蛋白质组分析，在120次运行中鉴定出6,164个蛋白质组。超高场轨道质谱仪，如 q 外显 + / hf 和轨道色谱仪，通过加快测序速度，显著改善了复杂样品的动态范围和分析，从而增加了可分析的肽数量，限制了通过离线分馏步骤或使用多种消化酶扩大仪器动态范围的需要。全蛋白质组分析可能不总是必要的，作为目标蛋白质组方法，利用更短的运行时间和更灵敏的三重四极质谱仪可用于筛选具有“高产”蛋白质组特征或聚糖结构的克隆。Jayo 使用毛细管电泳分离和 API 4000^TM三重四极质谱仪筛选重组人红细胞生成素在CHO 细胞中表达的糖形式。这使得70个聚糖和4个以前从未检测到的糖形态的新发现成为可能。产品质量的其他方面可以用前所未有的细节来确定，包括翻译后修饰、糖含量和结构。

虽然有大量的CHO 蛋白质组数据库，但缺乏行业相关数据库。如上所述，dg44，CHO-s 和其他生物生产线尚未测序，可能与 CHO-k1基因有很大差异。为了满足这些要求，可以采用从头测序法，即使用独立于数据库的算法来确定多肽片段的氨基酸序列。克隆特异的蛋白质组数据库也可以使用蛋白质基因组学方法从RNA测序数据中得到，从而大大提高了数据库的覆盖率，只需花费一小部分时间和成本就可以完成基因组测序。

从多次实验中有效地提取数据也是一个挑战。需要多次运行的大规模测试通常会出现记忆保持时间的变化，比对色谱图的困难，以及缺失的数据或蛋白质覆盖率。发展专门的无标记定量策略，如 ionstar，改善了大量复杂样品的定量，方便了从一台高通量生物反应器运行到蛋白质组学分析的多种条件的分析。虽然蛋白质组学数据集可以提供关于当今生物生产中使用的任何平台的明确深度的信息，但它得益于与多组学技术的整合。例如，单纯蛋白表达的变化并不总是与酶活性的增加相关，因此，由于正在研究的克隆中的突变累积导致特定代谢途径的改变会影响酶的特定活性。因此，当蛋白质组学数据集与其他组学数据(如代谢组学)结合时，可以提供更深入的代谢背景和评估代谢物之间通量的能力。

代谢组学

代谢组学作为蛋白质组学的补充，聚焦于检测蛋白质，代谢组学是低分子量生物化学物质(小于1,500 da)的系统测量和生物学解释。考虑到代谢物代表生化反应的最终产物，他们的分析提供了对细胞表型的洞察。在细胞培养条件下，特定的代谢产物被证明可以作为细胞状态的生物标志物。例如，CHO-k1培养中高浓度的鸟氨酸表明细胞凋亡，而培养基中高浓度的赖氨酸表明营养过剩。几个以 CHO为基础的代谢组学研究表明，更彻底的代谢功能评估可以为CHO细胞生物学提供一个新的洞察力，从而提高生物生产过程中产品的产量和质量。

大多数使用哺乳动物细胞的生物生产过程利用流加培养条件，在此期间，细胞在优化的基础培养基中生长，并辅以特定的补充，以防止养分耗竭。在流加培养过程中对代谢物通量进行分析，可以确定不同培养阶段代谢物水平的变化趋势。这些概况可以用来设计新的细胞系，设计有效的培养基和养分补充时间表，并帮助过程优化显著改善流加生产。

虽然近红外光谱技术是生物生产过程中实时监测少量代谢物的理想技术，但核磁共振波谱和质谱已成为大规模测量的主要技术。代谢组的完整覆盖范围要求能够检测代谢物在attomolar到femtomolar范围。当串联使用时，高分辨率质谱和核磁共振波谱（NMR）可以检测这个范围内的代谢物，从而鉴定出数以百计的代谢物，包括低分子量分子，例如碳水化合物、核苷、氨基酸、胺和脂肪酸。质谱(MS)通常与气相色谱法、离子色谱或液相色谱联用，从而能够识别和定量更广泛的代谢物。NMR和 MS都需要代谢物文库来鉴定检测出的化合物。使用特定物种的文库有助于对代谢数据进行可靠的分析。

一个精心设计的代谢组学研究可以通过两个主要工作流程来检验一个假设: 直接的和间接的。定向或靶向代谢组学限制特定化合物子集代谢物检测的数量。例如，线粒体功能障碍可以通过测量与特定功能障碍相关的特定代谢物(如乳酸和酰基肉碱)来解决。这样就可以对疾病进行诊断，确定药物靶点，并根据疾病细胞代谢谱的变化确定治疗的有效性。

当特定代谢物未知时，间接或非靶向代谢组学方法可用于多种条件下的代谢物调查。将这一点应用到线粒体功能障碍的例子中，早期对疾病与健康状况的研究将会发现代谢谱的差异，表明疾病状态中涉及的代谢途径，这可以用定向方法进一步分析。

CHO细胞生物生产水平的提高依赖随产量提高而增加的主要代谢物（氨基酸和葡萄糖）的常规分析来评估。这些改进通常以更可靠的形式表现，平衡养分，优化培养方案提高过程改进。然而，在2013年，对 CHO-k1的全球代谢产物分析表明，根据培养基类型和培养阶段(生长周期 / 生产周期)分析培养物的代谢组学的能力。此外，CHOng 等人使用基于 lc-ms 的代谢分析来确定是否可以为摇瓶中的高产克隆建立一个一致的代谢模式，并发现高产克隆特定代谢物水平的增加，相比于低产克隆能更好地调节他们的氧化还原状态。最近，海夫兹等人通过重建 CHO 代谢途径，并将它们与 c. grieus 基因组中的1766个基因相关联，建立了一个基因组级别的代谢模型 iCHO1766。基于 iCHO1766的 CHO-k1，CHO-s 和 dg44的预测模型也被开发出来。

使用代谢组学数据和CHO模型的最大缺点是CHO基因组的可塑性。如上所述，CHO基因组在培养过程中发生了许多变化。与亲本细胞系相比，这些重排可以彻底改变 CHO 细胞系的代谢状态。实际上，每个细胞都可能形成一个新的代谢状态，拥有不同的营养和环境需求。虽然一些代谢模型已经被用来预测过程和媒介变化，但是由于在细胞系发育过程中发生的基因组重排，这些模型在任何新的细胞系中的能力都是有限的。结合克隆细胞系高通量代谢分析的代谢组学数据，可用于建立、识别高效细胞系。偶联代谢组学与关键质量属性可以进一步帮助鉴定相关的稳定克隆。此外，结合蛋白质组学、转录组学和代谢组学的数据可能导致细胞系特定的基因组编辑目标的设计，以实现所期望的滴度和蛋白质质量。

脂质构成了细胞的干重，参与信号传递、能量代谢和细胞内外的运输，对生物制造具有深远的影响。脂质组学是代谢组学的一个分支，主要研究细胞内脂质和脂质结构的定量分析。张等人利用高效薄层色谱和质谱技术，获得了 CHO、 sp2 / 0和 hek-293三个生产细胞系的脂质体图谱。这些脂质组学图谱随后与转录组学数据整合，将脂质水平与基因表达相关联。目前，几乎没有脂质组学研究集中在 CHO上，但是随着对CHO细胞相关脂质信号和合成途径的了解增加，未来的脂质组学研究可能对生物制造产生重大影响。

代谢通量是细胞培养的一个重要方面，可以用来设计细胞系、培养基和生物制造过程。流体组学使用13c 标记的前体对代谢通量进行了全面的分析。代谢组学和流式细胞学结合起来，可以对低表达和高表达克隆的细胞生理学提供独特的见解。Popp 等人比较了10个 CHO-k1生产克隆和亲本细胞系的代谢性能，以确定高产细胞系的共同代谢特征，包括高谷氨酰胺合成细胞内率，低半胱氨酸摄取，天冬氨酸和谷氨酸的还原扩散，以及支链氨基酸和组氨酸的细胞内低降解率。这种方法可能提供表型和过程设置之间的机械联系，从而促进后续的过程优化。

尽管它提供了高产克隆的全面角色特征，为每个细胞系生成代谢组学和流体组学数据是耗时和费时的。对一个重要的目标子集进行高通量分析可以减少这种负担，简化这一过程，利于设计优化培养基和营养，以满足个体克隆的需求。

糖蛋白组学

CHO细胞含有多种多糖，它们与蛋白质(糖蛋白)或脂类(糖脂)结合。存在于细胞表面的细胞特异性聚糖协助生长因子的结合，激活信号通路和细胞间的通讯。虽然细胞特异性聚糖对于细胞过程非常重要，但生物制备主要集中在重组表达蛋白糖基化的一致性。

众所周知，糖基化是CHO 细胞中表达的许多生物治疗蛋白质的关键产品质量属性，其中大部分蛋白质产生的是糖蛋白，如组织纤维蛋白溶酶原激活物、红细胞生成素和免疫球蛋白。N 连接和 o 连接的聚糖可以表现出多种异质性，这些异质性源于多种因素，包括细胞谱系、细胞培养基和补充物以及培养条件，包括培养 ph、温度和氨浓度。这些因素直接影响蛋白质中的糖链位点是否糖基化(称为宏观异质性) ，以及这些特定位点糖链修饰的变化(称为微观异质性)。糖基化程度对于确定生物治疗性糖蛋白的有效性、安全性、体内半衰期和免疫原性至关重要。

糖基化是一个复杂的非模板化过程，使得生物治疗产品的糖基化分析具有挑战性。多糖分析的方法因仪器而变化，并取决于所关心的信息。直接使用MS或结合液相色谱(lc)可以检测完整的糖蛋白，以确定糖基化位点，或鉴定糖链结构。液相色谱-质谱 / 质谱方法同样可用于分析糖基化共轭位点的宏观异质性或微观异质性。糖链分析最常用的方法是通过酶消化糖蛋白来释放和聚集糖链。用荧光标签对聚糖进行标记，然后用毛细管电泳或液相色谱毛细管电泳对标记的聚糖进行分离和分析。这种方法既灵敏又高度定量，可用于测定聚糖的组成、序列和连接。

另一种分析糖基化模式的方法涉及到凝集素，植物转基因蛋白，特异性结合到各种碳水化合物表位。这样糖蛋白可以用荧光染料标记，并与凝集素阵列杂交。与特异性凝集素的结合依赖于糖蛋白上的糖链结构。利用瞬时荧光技术分析阵列，可以实时观察凝集素和低聚糖之间的相互作用。该方法具有半定量和高通量的特点，可用于生物治疗研发过程中糖基化的实时分析。

糖基化分析方法的迅速发展形成了大量的糖基化数据。为了帮助分析这些大型数据集，已经特别开发了糖生物信息数据库。液相色谱形成的多组数据被用于糖基数据库建设]。数据库里有超过600个荧光标记的 n 和 o 连接聚糖，包括其结构和根据公布值计算而得到的保留时间。Glycomod，glycoworkbench，unicarb-DB作为MS数据库有助于预测 n 和 o 链聚糖的单糖组成，用相应的聚糖结构对 ms 数据进行注释，可以为终端用户提供实验数据对比。

收集和分析蛋白质糖基化数据对于确定表达糖蛋白的结构和质量是有价值的，但是对于细胞途径或培养条件导致一个特定的糖基剖面没有提供任何洞察力。通过基因组、蛋白质组和新陈代谢数据库的路径分析工具分析糖组数据，可以对糖组数据进行更全面的生物信息学分析。Kegg 就是一个这样的信息工具，其与GYLCAN数据库(糖类生物合成和代谢途径)及CSM(复合结构图)相连，CSM绘制了生物体中所有可能的碳水化合物结构变化。

单克隆抗体和CHO 细胞中糖蛋白的糖基化现象正在迅速成为生物仿制药和生物制剂研究的重要参数之一。基于组学整合的方法可以帮助理解上游细胞培养参数(细胞谱系、细胞培养过程条件、细胞培养基和补充物)如何影响生物治疗性糖蛋白的糖基化。有了特定的理解和有针对性的开发，就有机会设计定制的培养基和补充剂、新的细胞系，以及在硅胶模型中进行预测，从而产生特定和一致的糖形态，以确保生产有效和高质量的生物疗法。

结论：多组学和系统方法

虽然单个组学技术具有很大的实用性并提高了CHO细胞的生产能力，但这些组学领域是紧密相连的，每个组学领域都影响着其他组学领域数据的解释。因此，多组学系统生物学方法的一致性和准确地预测提高生物产量的最佳优化才能实现最佳的效果。随着CHO组学数据积累的显著增加和组学技术的改进，多个小组参与了将完全不同的组学数据整合到有价值的CHO组学模型中的研究。

最初，系统和多组学方法主要集中于人类细胞或其他特征明显的系统，如大肠杆菌、酿酒酵母或肌肉分枝杆菌，这主要是由于缺乏可用的CHO 组学数据。这种系统或多组模型将基因组学和 / 或转录组学与蛋白质组学和代谢组学相结合。使用这些类型的模型，研究人员能够解释基因组或转录组变异如何影响 CHO的活力，新陈代谢或蛋白质表达。然而，由于不同 CHO细胞系的基因组和表达谱是高度可变的，将这种方法应用于单个CHO 细胞系将是非常有用的，可以确定细胞系特异性靶点，用于基因工程和介质改良以便最大限度地提高产品的产量和质量。在这些方法的基础上，使用小鼠代谢模型建立了多种 CHO-组学代谢模型。然而，小鼠和 CHO细胞之间的显著差异限制了这些模型。CHO-k1和 c. grieus 基因组的发表使得基因组数据能够整合到基于鼠类或人类系统开发的基因组尺度模型中，以定义特定的CHO通路，改进这些模型的预测。

虽然CHO系统模型随着CHO-k1基因组的测序有了很大的改进，但是 CHO 细胞系之间的多样性需要将来自特定细胞系的实验数据加入到模型中，以便能够进行准确的预测。Selvarasu et al. 将 CHO基因组和实验代谢组学数据整合到他们的小鼠模型中，以准确预测CHO 的代谢流量，并确定TCA循环中的流量、谷胱甘肽代谢和甘油磷脂代谢是细胞生长的潜在限制因素。然而，作者认为亚细胞定位数据的缺乏在一定程度上限制了模型的效用，这表明这些数据在预测糖基化方面特别有用。以人体代谢为基础的 iCHO1766将 CHO-k1和 grieus 基因组数据纳入模型，以预测代谢和生长。尽管 iCHO1766是迄今为止最完整的 CHO基因组级别的代谢模型，但它是一个共识模型，不能解释CHO 谱系之间的无数基因组，转录组和代谢差异。为了准确地模拟特定的 CHO细胞系，如CHO-k1，CHO-s 或dg44，hefzi等结合了每个特定细胞系的特定转录组、蛋白质组或代谢组数据。利用这些被整合到 iCHO1766模型中的细胞系特定数据，研究人员能够确定分泌途径中的细胞工程学目标，这些目标可能极大地提高生产力和生长。

各种组学和系统代谢模型，以及侧重于将基因组学和蛋白质组学与糖组学相结合的方法，已被用于识别可能有助于培养基和添加剂或工程化CHO细胞发展的途径，以提高生物生产的生产力或产品的一致性。Baycin-hizal 等将蛋白质组数据与 CHO 基因组和转录组数据相结合，鉴定了超过6000个蛋白质。虽然mRNA数据在蛋白质组学研究中是有用的，研究人员还发现了表达和蛋白质水平之间的差异。他们发现，不稳定蛋白质的 mRNA 水平较高，而更稳定的蛋白质的 mRNA水平相对较低，这表明蛋白质水平和表达并不总是直接相关的。由于这种特殊的翻译后修饰的复杂性，糖基化形式的产物一致性是一个特别适合多组学方法研究的领域。多组学和系统方法有助于阐释糖基化网络和糖基工程。使用结合基因组学、蛋白质组学和糖组学的系统生物学方法，研究人员能够证实在人类细胞糖基转移酶参与合成特定复杂的糖链。一种结合了基因组学、糖基学和蛋白质组学的方法，能够定位人体和CHO细胞中的o链糖蛋白。将知识库融入系统糖生物学模型对于培养基和生产一致的O糖化生物治疗物的细胞系将是有用的。对 CHO 细胞的蛋白质组学分析也发现了一些糖苷酶和唾液酸酶，它们可以有针对性地提高产品质量和一致性。虽然不是一个系统方法，克劳森的团队也开发了一个基于最近发表的 CHO-k1基因组和 RNA-seq 数据的敲除筛选，以确定 N-glycan 合成中涉及的各种糖基因的功能。这个基因组筛选结合糖基化分析，使他们能够确定特定糖基因在 n-聚糖合成中的作用。他们通过基因工程 CHO 细胞产生特定的 n 聚糖来验证模型，比如同源双链 n 聚糖或2,6-唾液酸IgG1。

组学在生物生产中的未来可能需要在单个CHO细胞系上使用多种组学技术，而不是一个包罗万象的共识模型。虽然一个集成多种组学数据集的共识CHO模型是有用的，可以预测CHO细胞工程和培养基的变化，但是亲本CHO细胞系的变异性伴随着由于引入转基因而导致的基因组不稳定，这需要一种利用组学来研究单个CHO 细胞系的方法。类似于个体化医学的思想，将组学策略集中于单个 CHO系，从亲本株到最终的生产克隆，将最大限度地提高生产力和质量，以及每个单个细胞系的培养基和处理优化。

这种综合方法的示例工作流程，创建一个具有互补培养基的次代生产克隆，将开始使用基因组规模的系统 / 生物学模型建立使用组学特定克隆，以确定更高的生产力和 / 或更高的一致性。利用细胞亚群特定的基因组和转录组数据，研究人员可以确定筛选基因组目标的一个狭窄亚组。利用高通量敲除筛选，最高表达突变体可以通过分类和使用NGS来确定最有效地提高表达的目标。最有效的基因突变会被克隆出来。组学数据随后可以从工程细胞系获得并反馈到系统模型中。使用迭代模型来识别表达或代谢途径的缺陷，研究人员可以选择新颖的组件作为伴生媒介，以最大限度地提高生产力和产品质量。

由于数据获取和集成到模型中是复杂的，实现这一目标存在重大障碍。虽然目前关于 CHO细胞的知识库近年来呈指数级增长，但是基因组级别的CHO模型仍然严重依赖小鼠和人类模型，需要更多的CHO 特异性组学数据。虽然已经拥有多个 CHO 细胞系的关于代谢途径的信息，但是仅仅是亲代细胞系中的突变数量就很难确定这些差异是否以及如何影响表型。使这个问题更加复杂的是细胞系生成过程中获得的基因突变，可能会彻底改变来自亲代细胞系的生产克隆的基因组和表达模式，需要花费相当大的努力来获得特定 CHO 生产模型所必需的组学数据。除此之外，生产培养基中的单个细胞可能表现出明显的异质性，表现为不稳定或不一致的产品质量。将CHO单个细胞异质性的数据融入系统模型中由于缺乏大量数据，目前是不可能的。在这方面，从单细胞获取和分析数据的新兴方法将是必要的。

图1。组学技术在生物生产中的应用。这个示意图代表了从细胞系发展到制造过程中的生物治疗发展流程。虽然所有的组织技术都可能影响到开发过程的各个方面，但是工作流中的每个步骤都可以通过应用不同的基于组织技术的方法来增强。例如，基因组学和表观基因组学可能对细胞系的发展产生最大的影响，而蛋白质组学、糖组学和代谢组学最常用于开发培养基和改善生产过程。

图2组学技术在提高生物治疗性生产方面的潜力。生物生产所涉及的组学技术是相互关联的，每个组学重点领域的数据能够影响其他组学重点领域的解释。当结合多种技术的结果，预测建模的准确性提高。系统或多组学模型影响生物治疗开发的每一步，提供细胞工程目标、多种潜在的培养基成分和过程优化，这些结合将显著增加基于 CHO的生物生产的产量。

原文来源：Stolfa G, Smonskey MT, Boniface R,et,al. CHO-omics Review: The Impact of Current and Emerging Technologies on Chinese Hamster Ovary Based Bioproduction.Biotechnol J. 2018 Mar;13(3):e1700227. doi: 10.1002/biot.201700227.

责任编辑：邵丽竹

审　　核：何发

新兴技术对CHO细胞为基质的生物制品的影响

评论

热点文章