保定市论坛

注册

 

发新话题 回复该主题

人工智能在新药研发中的应用现状与挑战 [复制链接]

1#

黄芳1,杨红飞1*,朱迅2**

(1.杭州费尔斯通科技有限公司,浙江杭州;2.吉林大学基础医学院,吉林长春)

[摘要]人工智能在新药研发领域中发挥着至关重要的作用。目前,自然语言处理、机器学习、深度学习、知识图谱等人工智能关键技术已广泛应用于新药研发的各个环节,全球多家人工智能企业与制药企业也开启了深度合作模式,为生物医药的发展带来了新的机遇。介绍了机器学习方法和深度学习方法在新药发现领域的应用进展及相关企业,并总结了人工智能应用于新药发现的机遇与挑战,旨在为从事人工智能+新药研发工作的科研技术人员提供思路与参考。

众所周知,一款新药从研发到上市平均需要花费10年以上的时间以及投入高昂的资金,然而仅有10%的新药能被批准进入临床研究,最终只有更小比例的药物分子获批上市。曾有投资人将新药“从实验室进入临床试验阶段”形容为“死亡之谷”。

人工智能(artificialintelligence,AI)现在还处于起步阶段。AI起初被大规模应用于医疗影像,然后逐渐渗透到药物研发领域。近年来,越来越多的AI企业投资AI+新药研发赛道,以及海外人才的回归,给中国AI+新药研发注入一股新力量。从医疗领域全景来看,AI尚未介入很多细分领域,还需要更长的时间、更系统化的解决方案。要实现AI在医疗领域的全面落地,需要不断优化升级AI系统,提升AI的智能化和个性化。虽然AI在医疗健康领域处于起步阶段,但普及到各细分领域的潜力巨大。

AI能够实现在生物医药产业自上游到下游的投入使用,且虚拟筛选、靶点发现等部分应用场景已经能够为企业带来实际收益。新型冠状病毒肺炎(COVID-19)疫情发生后,越来越多的生物医药企业和研究机构通过将其业务与AI结合来完成创新突破,在新药开发、生产运营,甚至商业战略中都有所应用。AI技术在生物医药领域中的应用涉及药物研发、医学影像、辅助治疗、基因治疗等方面,药物研发在全球医疗AI市场中的份额最大,占比达到35%。靶点发现与筛选成为AI+新药发现中最为热门的应用领域,AI通过深度学习技术快速发现药物与疾病,以及疾病与基因间的连接关系,进而缩短靶点发现周期。在化合物合成方面,AI可通过模拟小分子化合物的药物特性,在较短时间内挑选出最佳模拟化合物进行合成试验,大幅提高化学合成路线设计速度,以降低操作成本。

目前,AI算法模型被诸多学者提出,随着药物研发数据的高速累积和数字化转型,以及AI技术的加速发展,决策树(DT)、随机森林(RF)和支持向量机(SVM)等机器学习模型以及深度神经网络(DNN)、卷积神经网络(CNN)和循环神经网络(FNN)等深度学习算法逐渐被应用于药物发现领域。本综述主要介绍机器学习和深度学习方法在药物发现领域的应用进展以及相关企业。

1人工智能技术与算法模型简介

新药研发是一个漫长且高投入的过程,高通量筛选、药物基因组学等技术加速了药物开发,引领其步入大数据时代,药物发现大数据可用“十个V”来描述,即:数量(volume)、速度(velocity)、品种(variety)、准确性(veracity)、有效性(validity)、词汇(vocabulary)、场合(venue)、可视化(visualization)、波动性(volatility)以及价值(value)[1]。基于数据库在药物发现不同阶段的应用和相关性,可将其分为6类:1)全面化学分子库,如Enamine、PubChem和ChEMBL;2)药物/类药化合物库,如DrugBank、AICD和e-Drug3D;3)收集药物靶标,包括基因组学和蛋白组学数据的数据库,如BindingDB、Supertarget和LigandExpo;4)存储通过筛选、代谢和功效研究获得的生物学数据的数据库,如HMDB、TTD、WOMBAT和PKPB_DB;5)药物毒性数据库,如DrugMatrix、SIDER和LTKB基准数据集;6)临床数据库,如ClinicalTrials.gov、EORTC和PharmaGKB[1]。

AI领域中的自然语言处理、机器学习、深度学习、知识图谱、计算机视觉等相关技术,有助于解决药物研发领域的痛点。这些技术、算法模型在蛋白结构及蛋白-配体相互作用预测、药物靶点发现、活性化合物筛选等新药发现环节均已得到广泛应用[2–6]。各环节常用的AI方法详见图1。

2人工智能在药物发现中的应用

2.1药物靶点识别

靶点是新药研发的基础。当前,药物研究的竞争主要集中体现在药物靶点研究上,早期药物靶点确定对研发项目成功至关重要。

DT算法是一种常用的机器学习算法,具有条理清晰、程序严谨、定量与定性分析相结合、方法简单、易于掌握、应用性强、适用范围广等优点。RF算法是一种基于Bagging的集成学习方法,可处理分类、回归等问题,RF分类器通过将许多DT结合来提升分类的正确率。目前,DT、RF分类器可用于预测药物靶点,Costa等[7]构建了一个基于DT的分类器,通过该分类器预测与疾病相关的基因,最后发现了多种转录因子在代谢通路和细胞外定位中的调控作用。Kumari等[8]通过自助法采样提升了RF算法的稳定性,成功从潜在靶点中筛选出最有可能获得成功并应用于临床的靶点。Zeng等[9]开发了deepDTnet深度学习方法,该系统嵌入了15种类型的网络,包括化学、基因组、表型和细胞网络,可以将最大的生物医学网络数据集成在一起,通过异构网络中的深度学习对已知药物进行靶标识别,以加速药物的重新利用、减少药物开发中的障碍。Madhukar等[10]提出BANDIT(BayesianANalysistodetermineDrugInteractionTargets)可以准确预测药物与特定靶标的相互作用,不仅可用于识别多种多样的小分子的特定靶标,而且可用于区分同一靶标上的不同作用模式。

机器学习还可以预测肿瘤对药物的反应。Iorio等[11]研究了全基因组基因表达、DNA甲基化、基因拷贝数和体细胞突变数据对药物反应的影响。该研究组通过3种不同的分析框架,即方差分析、逻辑模型和机器学习算法(弹性网络回归和RF)来定义“癌症功能事件”(cancerfunctionalevent,CFE)对药物敏感性预测的贡献。Iorio等的研究成果可帮助新药研发工作者更好地利用肿瘤细胞系来了解哪些药物将为哪些患者提供最有效的治疗。

2.2化合物高通量筛选

化合物筛选是指通过规范化的实验手段,从大量化合物中选择对某一特定靶点具有较高活性的化合物的过程,该过程需要较长的时间和成本。AI可以通过对现有化合物数据库信息的整合和数据提取、机器学习,提取与化合物毒性、有效性相关的关键信息,从而大幅提高筛选的成功率,降低研发成本和工作量。

李瑾[12]利用化合物活性分类方法ENS-VS构建蛋白质和配体亲和力模型ComplexNet,用于预测初步筛选出的小分子与靶标蛋白的结合强度,进行精细筛选。筛选过程分3步:首先,通过集成SVM、朴素贝叶斯及DT这3种分类算法将蛋白质-配体相互作用特征和配体结构进行特征融合,解决活性化合物与非活性化合物样本数量严重不平衡的问题以及提高靶标蛋白的适用性、稳定性;其次,通过Spark大数据平台实现ENS-VS方法的并行加速,提高活性化合物筛选的执行效率;最后,基于DUD-E标准数据库针对靶标已知的活性化合物数量和是否出现新的靶标蛋白特性分别构建蛋白家族特异性模型、靶标特异性模型与通用模型。实验结果表明,ENS-VS方法能有效提高活性化合物筛选的命中率,并且可与任意分子对接程序联合使用,对提高基于结构的虚拟筛选方法的成功率具有极其重要的意义。Wu等[13]利用生物信息学和结构基因组学的方法系统分析了新型冠状病毒(SARS-CoV-2)基因编码的蛋白,将其作为主要或潜在的药物治疗靶点,并将SARS-CoV-2基因序列与SARS-CoV和MARS-CoV等冠状病毒进行了比对,通过AI计算机虚拟筛选方法发现一些具有抗病毒、抗菌和抗炎作用的临床药物和天然产物对上述靶蛋白表现出较高的亲和力,为COVID-19的治疗提供了新的可能。SVM分类模型能够处理小数据集中的高维变量,还可以处理分类和回归问题,其分类效果强于DT与RF这2种机器学习方法。Poorinmohammad等[14]通过建立SVM分类模型对人类免疫缺陷病毒(HIV)多肽进行分类,预测准确率达到96.76%。SVM用MATLAB编写的svm源程序可以实现SVM分类或提取,用于化合物库的虚拟筛选,有学者通过组合SVM和分子对接方法自动筛选化合物库,显著提高了活性化合物的命中率和富集因子,节省了计算资源[15]。

细胞活力测定、细胞信号通路分析和疾病相关表型分析这3种基于细胞表型的方法常被用于筛选先导化合物。结合了AI技术的表型筛选更加高效,适用于更为复杂的病理生理过程,且能在细胞水平利用表型改变来筛选新化合物[16]。SVM、RF或贝叶斯等机器学习技术已被成功应用于药物发现阶段的化合物筛选环节。Cyclica开发了名为“LigandExpress”的云端蛋白质组学筛选平台[17],该平台使用生物信息学和系统生物学技术将药物与蛋白的互动关系呈现为图像,利用AI对小分子化合物进行全面评估,帮助改善药物活性、预防药物副作用,以及发现能与小分子化合物结合的新靶点,制药科学家正在积极利用该平台探索药物发现新领域。SVM和朴素贝叶斯模型已成功应用于哺乳动物雷帕霉素靶蛋白(mTOR)抑制剂的虚拟筛选。Narain等[18]通过AI贝叶斯神经网络推断方法分析转移性前列腺癌(PC-3)细胞蛋白质组数据,生成每个特定因子的独特概率模型,再根据功能变量子网的Burt约束度量排名找到潜在的前列腺癌生物标志物Filamin-A和Filamin-B等。中国科学院上海生命科学研究院陈洛南教授团队利用AI克服了区分疾病样本和正常样本的分子生物标志物覆盖率低和假阳性率高的问题,确定了基于多维数据复杂疾病的网络标志物及动态网络标志物筛选方法[19–20]。

2.3预测药物的吸收、分布、代谢、排泄和毒性

预测药物的吸收、分布、代谢、排泄和毒性(ADMET)是药物设计和药物筛选中十分重要的方法。过去,药物ADMET性质研究以体外研究技术与计算机模拟等方法相结合,研究药物在机体内的动力学表现。目前市场上有数十种计算机模拟软件,包括ADMETPredicator、MOE、DiscoveryStudio和Shrodinger等,该类软件现已在国内外的药品监管部门、企业[如晶泰科技(XtalPi)、Numerate等]和科研院所得到了广泛应用。为了进一步提升ADMET性质预测的准确度,已有生物科技企业探索通过DNN算法有效提取结构特征,加速药物的早期发现和筛选过程。例如晶泰科技通过应用AI高效地动态配置药物晶型,完整地预测一个小分子药物所有可能的晶型,大大缩短了晶型开发周期,更有效地挑选出合适的药物晶型,减少了研发成本[21]。普林斯顿大学化学系的AbigailG.Doyle教授与默克公司的研究人员合作,利用RF算法对氨基化反应条件进行优化,准确预测具有多维变量的Buchwald-Hartwig偶联反应收率,结果表明,RF算法可以利用高通量实验获得的数据来预测多维化学空间中合成反应的性能和化学反应收率,该机器学习算法模型将会在药物发现领域被广泛应用[22]。

严重药物不良反应是新药开发过程中导致失败的关键因素。王昊[23]通过构建贝叶斯网络预测模型进行药物不良反应的预测,结果发现该模型对导致呼吸困难发生频率在1%以上药物的预测准确率可以达到86.76%,机器学习模型能够作为有效工具在药物发现阶段对其进行安全性评估。毒性是新药研发的一项重要指标,在药物发现阶段排除毒性大的化合物对于新药研发相当有利。Goh等[24]构建了CNN毒性评估模型,将其用于预测分子的各种性质如毒性、活性和溶解性等,与多层感知机深度神经网络(MLPDNN)相比,发现CNN在活性与溶解度的预测方面表现更优异。

2.4蛋白结构及蛋白-配体相互作用预测

靶点发现是新药研发的关键,而蛋白质功能分类研究有助于深入理解靶点蛋白特征,是解决药物靶点发现难点的有效途径。随着AI、大数据等技术的迅速发展,蛋白质功能预测已成为蛋白质功能注释的重要手段,也成为药物靶点发现领域的前沿问题[25]。序列同源性比对、CNN等多种计算方法被应用于蛋白质功能预测研究,方法论是同源蛋白具有相似功能[26]。

谷歌DeepMind团队开发出的AI产品AlphaFold2,可根据氨基酸序列准确预测蛋白质结构,预测结果已接近实验数据的水平,且预测的准确度可与冷冻电子显微镜(cryo-EM)、核磁共振或X射线晶体学等实验技术媲美[27]。谷歌DeepMind开发的AlphaFold[28]深度学习系统可以快速预测SARS-CoV-2的蛋白质结构,为COVID-19疫苗设计提供有价值的信息,而使用传统的实验方法获得蛋白质结构可能需要数月时间[29]。洪嘉俊[30]通过基于CNN的蛋白质二进制编码表示策略构建了蛋白质功能预测模型,结果表明,CNN预测GO家族蛋白的准确率在66%~98%之间,显著高于SVM、概率神经网络(PNN)和KNN这3种机器学习方法,表明CNN模型在真实世界中具有很好的假阳性控制率。由于目前的细菌Ⅳ型分泌系统效应蛋白(T4SE)预测方法存在假阳性率高等缺点,洪嘉俊针对T4SE和非T4SE数据特征分别建立了T4SE的CNN预测模型,通过采用与Bastion4方法完全相同的建模数据集进行评估,基于蛋白质二级结构特征、位置特异性评分矩阵和序列One-hot编码技术这3种方式建立的模型预测准确率分别为95.6%、98.9%和96.7%,效果显著高于Bastion4,表明CNN模型可以用于T4SE的注释,且可以很好地控制假阳性率。

DNN在蛋白结构预测、蛋白质-配体相互作用预测方面也有应用。AlphaFold利用高效训练的DNN从主序列中预测蛋白质的性质,通过DNN预测氨基酸对之间的距离和相邻肽键之间的φ-ψ角,探索蛋白质结构的微观结构,以找到与预测相匹配的结构[31]。Ragoza等[32]使用CNN对蛋白配体复合物构建打分函数,通过打分函数评价蛋白-配体相互作用,该打分函数在蛋白-配体预测和虚拟筛选中的打分表现比AutoDockVina更好,但是也存在实际计算的结果可能会远大于实验观察值的偏差问题,因此CNN在该方面的应用还有一定的改进空间。刘桂霞等[33]基于DNN构建蛋白质相互作用预测框架,预测框架在酿酒酵母蛋白质数据集上的准确率达到95.67%,精确度达到96.38%,该预测框架可以解决较高假阳性率和假阴性率的问题,整合蛋白质特征数据;张丽娜[34]提出基于多源特征的提取策略,利用集成学习方法构建蛋白质-配体相互作用预测模型,该方法的敏感性和Youden指数均优于单分类器预测模型,可以有效解决数据不平衡问题。Cunningham等[35]基于6个常见的球形蛋白结合域(PBD)家族构建了HSM模型,其能准确预测跨多个蛋白质家族的PBD-肽相互作用的亲和力,HSM具有较高的灵活性,适用于在疾病中对突变的PBD和肽进行建模,以及基于肽的药物的设计。

2.5分子生成

AI可以通过对海量化合物或药物分子的学习获得化合物分子结构和成药性方面的规律,再根据规律生成很多自然界从未存在过的化合物,将其作为候选药物分子,有效构建拥有一定规模且高质量的分子库。高质量的小分子库是药物研发人员一直

分享 转发
TOP
发新话题 回复该主题