本文作者系Sinequa公司的产品战略副总裁。
据Deloitte公司称,现在一种药物的平均研发成本为22亿美元,同时近10年来首轮临床试验的成功率一直低于10%,也就是说药物研发的投资回报早已不再稳定,所以制药企业都想尽早完成药物的上市,迅速回收昂贵的研发成本。
药物研发意味着:来自不同地方的众多专家必须访问分散的信息,对其进行组合、处理并找出其中的关联,这也是研发过程进展缓慢的原因所在。软件制造商M-Files在其2019年出品的智能信息管理报告中,向全球1500家公司询问了他们在数据管理方面遇到的问题,并汇总如下:
•信息迷宫:几乎近半数受访者表示很难找到正确的信息;
•版本升级:超过2/3的受访者表示难以找到文档的最新版本;
•文档重复:超过80%的受访者表示他们需要重新创建已有的文档,因为他们无法在自己的企业网络中找到它。
Jeff Everham认为,通过采用正确的搜索策略,可以节省大量的研发时间,从而加快药物的上市
太多的研究论文
信息过量是使事情变得如此困难的主要原因,这些信息分布在各种各样的地方,而且据Gartner公司称,它们当中的80%不够系统化,这意味着:没有易于分析的表格或类似的东西可供直接参考,只有医生的笔记、实验室报告、研究观察和图片等。每年都有超过300万篇研究论文发表在全球33 000多种专业期刊上,一个人仅完成阅读摘要便需要85年。自COVID-19为人所知以来,关于该病毒的论文便已发表了50万篇。
用智能搜索取代关键字匹配
研究人员无法通过标准商业智能和分析工具找到并使用隐藏在非系统化数据中的信息,需要比关键字匹配更优质的新智能搜索技术来提供有关主题的上下文信息(就像普通搜索引擎所做的那样)。企业搜索软件产品(如阿斯利康和UCB使用的Sinequa)采用了自然语言和深度学习方面的知识,即人工智能技术(AI)来优化搜索。这些产品能够了解搜索者的真正意图,能够发现非系统化文本中的关系和模式,提供相关且有意义的结果。Gartner公司便在其推出的数据集成工具魔力象限中谈到了洞察
引擎。
实验室记录本中的批评性意见
如果某些信息隐藏在难以访问的系统中,研究人员因无法全面了解药物的安全性会付出怎样的代价?如果研究人员因为临床试验结果分散在多个数据集中而无法全面了解药物信息,又会造成怎样的后果?如果实验室记录本或医生笔记中的批评性意见被忽视,研究人员会错过哪些机会?通过采用智能搜索可大幅降低这些问题背后潜藏的风险。
例如,阿斯利康公司的内部和外部专家每天都会创建大量技术性很强的文档:研究文档、医学数据库中的条目、测试报告、专利申请等,此外还有不同专业领域的研究人员之间的交流信息。在阿斯利康的研发过程中,每天都有人在集团中寻找有关特定主题的专家或信息。例如,谁特别熟悉“动脉硬化”?谁了解药物中的活性成分和活性分子?有哪些关于副作用和专利的文件?那么如何高效找到这些信息呢?
使用内容分析技术
阿斯利康首先尝试了使用简单的搜索引擎,根据其在文件上留下的痕迹来定位专业人员,但他们发现最终只有使用企业搜索软件才有可能从来源各异的大量数据中过滤出正确的信息。内容分析技术基于语义和语言分析,可用于搜索非系统化和系统化的数据,通过这种方式,用户可以找到那些根本没有出现实际搜索词,而只是有同义词或内容有相似概念的文章。
在最初的过程中,阿斯利康使用企业搜索软件分析了大约2亿份来自研发领域的内部和外部文件,还确定了术语(同义词和语义相关的术语)之间的特定主题关系。该索引产生了一个数据库,在搜索掩码中输入术语后,软件便能从数据库所有关于该主题的内容中找出最好的专家或研究小组,在最短时间内组建跨学科的专家团队,就一个共同主题开展跨地区的工作,这使得阿斯利康等制药企业在将创新研究成果尽快转化为成熟产品方面具有了明显的竞争优势。
数以百万计的SAS记录数据
国际制药企业UCB也以类似的方式使用了企业搜索软件,这家总部位于布鲁塞尔的生物制药企业在全球拥有8600多名员工,致力于研究和开发中枢神经系统和免疫疾病领域的创新治疗方案。
在药物疗法的开发过程中,UCB开展了广泛的临床研究,开发药物时研究人员必须不断访问这一过程中形成的大量数据内容,以便找到相关信息进行深入的统计分析。在过去15年里,UCB积累了大约1000万个文件,相当于20TB的海量数据,目前这一文件量仍以每年30%的速度增长,这包括超过100万条、具有数十亿行数据的SAS记录、SAS程序代码、ASCII、Microsoft Office以及PDF文件。
借助人工智能技术支持的搜索和分析,制药企业可以更轻松地从内部和外部资源中获取这些庞大和多样的数据,加快研究速度,从而缩短药物的上市时间。
评论
加载更多