生物制药行业处于不断变化的状态。随着该行业实现现代化、以兑现细胞和基因疗法等新一代药物模式的希望,它也在寻求利用数字技术的最新进展。许多公司都有数字化转型计划,以利用大数据、云计算、机器学习/人工智能和物联网 (IoT) 的潜力。这些举措的最终目标是提高运营效率、降低成本和缩短上市时间,并在竞争中保持领先地位。为了实现这一转变,所谓的工业4.0 运动必须建立在良好的数据管理的坚实基础上,同时满足行业严格的监管要求。
然而,数字计划通常为这些遗留工艺的现代化提供了机会,用集成系统取代了费时费力的手动方法,从而可以减少工作量并提高整体数据质量。
近年来,FDA 监管警告信“483”的兴起,其中数据完整性违规占大多数通知。2019 年,FDA 发出的所有警告信中,近一半 (47%) 涉及数据完整性。到2021 年底,这一数字已增加到 65%。这一趋势促使有远见的公司重新评估其基础设施和工作方式,以努力通过业务和运营流程的数字化来保持合规性并避免未来风险。在许多情况下,这些努力应被视为对实现数据管理基础设施现代化、以满足工业4.0 愿望的计划的补充。
遗留系统令人头疼
行业已经很好地采用了一些工具,来帮助管理运营数据并提高数据完整性,例如电子实验室笔记本(ELN)、实验室信息管理系统 (LIMS) 和生产执行系统 (MES)。较大的组织也看到了对构建中央式数据存储库(例如数据湖)的投资的复苏,以帮助推动它们的数字化计划。许多这些数据湖的核心业务目标是打破数据孤岛,为最终用户创建易于访问、连贯且完整的中央式数据存储库。然而,自动化这些不同系统的集成,同时确保数据完整性和合规性,仍然是一个重大的行业挑战
许多生物制药工艺缺乏公认的数据表示和传输标准。虽然标准不断涌现,但由于缺乏行业共识或标准不成熟,大多数标准尚未被硬件和软件供应商广泛采用。由于许多硬件和软件供应商未能提供足够的编程接口来实现自动化的“系统到系统”集成,从而造成关键数据孤岛,使问题变得更加复杂。
一个不太受欢迎但更微妙的数据完整性问题是数据背景。即使操作员可以从特定系统(例如层析)中提取数据,如果不将其与存储在其它系统中的数据(例如制备样品的实验条件或样品如何被存储或处理)结合,这种数据的用处也很小。维护这种信息背景或“监管链”不仅对于解释实验观察结果(例如作用机制)是必要的,而且在试图获得优化候选药物属性或药物生产过程所需的更高水平的商业洞见时也至关重要。
人工操作员通常需要手动转录和组合来自多个系统的数据,通常使用电子表格等中介工具。这种以人为中心的过程既费时又容易出错,而且随着数据传输中所需的每一次额外转录,出错的可能性也会增加。此外,手动数据转录工作流程需要大量额外的质量检查,以确保数据完整性并满足法规要求,例如21 CFR Part 11 或良好实验室/生产规范 (GxP)。
此外,生成和访问高质量的背景数据是实施机器学习和其它高级分析技术的主要瓶颈。受过高等教育的数据科学家可能会在一个项目上花费大量时间,只需搜索、组合和清理数据,以生成用于训练和验证模型的数据集。
减轻痛苦
改进数据管理实践和系统集成是实现工业4.0 的自动化和分析愿望的关键先决条件。
FDA 使用首字母缩写词ALCOA 来描述其对数据完整性的期望,以帮助行业技术人员遵守21 CFR Part 11。根据 ALCOA,数据必须是可归属的、清晰的、即时的(即在生成日期和时间时实时记录时间戳)、原始的、准确地。这些概念被扩展为ALCOA+,它包含了额外的功能,并指定数据必须是完整的、一致的、持久的和可用的。
ALCOA+ 的原则和21 CFR Part 11 关于维护数据完整性的要求在生物制药行业得到了很好的确立。最近,一项被称为科学数据管理的F.A.I.R 原则的运动倡导了类似的概念,以解决更广泛的数据集成和系统自动化挑战。F.A.I.R 由Lorenz研讨会“联合设计数据公平港”研讨会的参与者于 2014 年成立,确保数据可查找、可访问、可互操作和可重用。它更多的是设计原则而不是标准,它建议或依赖运营商订阅一个系统,该系统能够以机器可读的格式在两个或多个不同系统之间实现串扰。输出生成可理解、可重用和可背景化的数据。
F.A.I.R.和ALCOA+ 相辅相成,有助于将数据联系在一起。F.A.I.R.专注于基础设施,即元数据,以提高电子数据捕获的可靠性,而 ALCOA+ 解决数据完整性挑战,以提高过程中数据输出的可信度。
新兴信息学趋势
生物制药信息学的当前状态在很大程度上取决于利用相当大购买力的大型组织。这些组织中有很大一部分已经对大量不同的系统进行了大量投资,这些系统与内部集成代码、定制的数据湖/库和各种分析工具相结合。可以理解的是,他们不愿承担与大规模变更相关的成本和风险,尤其是在相关系统已通过GxP 标准验证的情况下。进步通常是渐进式的,这可能会通过激励现有供应商维持现状并为更新、更具颠覆性的技术设置进入壁垒来阻碍创新。然而,有一些新兴技术可以帮助从这些遗留系统中自动捕获、集成和背景化数据,这些技术既可以提高数据完整性,又可以推动更广泛的工业4.0 计划,例如物联网的实施、机器人技术和用于预测性建模的数字孪生的创建。
系统集成仍然是一个长期存在的问题。一些组织在内部拥有必要的IT/软件开发技能,通过直接与各个供应商合作创建定制解决方案来整合他们的数字“地形图”。然而,这种方法对于许多公司来说并不理想,因为它是资源密集型、耗时的,并且创建了必须永久维护的自定义软件代码,从而产生了资源开销债务。它的可行性还取决于硬件/软件供应商对系统集成的支持,这因供应商而异,应该是采购新系统或平台时的决定性因素。
在采购旨在与您的数字地形图集成的新信息系统或仪器时,应提出的关键问题包括:
采购团队越来越重视集成支持,给硬件/软件供应商施加压力,要求他们在设计产品时,遵循 F.A.I.R.原则。对于许多中小型组织来说,构建一个硬件和软件的集成生态系统来驱动自动化超出了他们的技术或预算范围。为了满足这一需求,许多公司开发了旨在简化实验室硬件和软件平台集成的软件,方法是创建通用实验室设备和关键信息学应用程序的连接器库,并提供系统间自动交换数据的机制。
从不同系统提取的数据的清理、背景化和匹配是一项与访问源数据本身一样艰巨的挑战。重新创建“监管链”信息通常需要组合来自不同系统的部分数据集,协调术语和标识符,并确保数据正确匹配。这是最繁琐且最容易出错的步骤之一,会产生重大的数据完整性风险,尤其是在由人工操作员手动完成时。
自动化这个过程通常可以结合某种形式的集中管理的元数据/本体库,来自动注释数据或创建映射来自不同系统的术语并将数据连接在一起的知识图谱。在开源计划以及一些专门从事这一市场的商业供应商的推动下,本体管理、语义丰富和知识图工具的可用性继续快速扩展。
系统集成和自动数据背景化侧重于硬件、其控制系统和其它操作工具(如ELN、LIMS 或 MES)的集成。然而,湿实验室工作的动态并不总是提供对软件界面的访问以捕获所有观察结果。一些数据仍以手写笔记的形式手动记录,这对于正确验证实验或分析运行至关重要。该信息可能会或可能不会成为电子信息监管链的一部分;它可能会丢失、错误转录或故意从记录中遗漏。
为了解决这个问题,一些公司引入了科学智能的数字语音助手,为实验室工作流程和数据采集提供更高效、无需人工操作的用户体验。例如,助手可以通过复杂的语音指令协议提示用户,直接从实验室设备导入关键步骤的数据,并通过转录操作员的语音记录来捕获关键观察结果和辅助笔记。这些工具既可以独立运行,也可以直接与ELN 等其它系统集成。
展望未来
随着小分子药物开发让位于更新的药物模式,传统信息学和硬件系统的适用性受到质疑。结合中端市场生物技术公司不断增长的购买力,这些公司通常是很少或根本没有遗留基础设施的绿地,对传统信息学领域进行更具创新性和颠覆性变革的机会将会出现。
这些新技术中的许多都试图通过结合开箱即用的工作流程执行元素、预配置的系统和硬件集成、基于F.A.I.R 原则的背景化数据存储以及集成分析来推动业务通过集成的数字平台提供智能。它们的采用将取决于它们是否可以快速实施、立即提供业务收益、降低总拥有成本以及提供可扩展的数据生命周期管理基础,以加速工业4.0 计划。
技术终将成熟,以应对实验室和生产工厂的集成和自动化挑战,同时确保数据完整性和法规遵从性。无论组织如何重新评估和现代化其当前流程,解决方案都始于采用新世界方法来解决这些旧世界问题的意愿。
原文:S. Weiss, “An Integrated Approach to the Data Lifecycle in BioPharma,” Pharmaceutical Technology 46 (8) 2022.
内容来源:生物工艺与技术
责任编辑:胡静 审核人:何发
2024-08-17
2024-07-22
2024-07-18
2024-09-02
2024-08-09
2024-08-06
2024-07-18
评论
加载更多