保定市论坛

首页 » 常识 » 问答 » 星药发表JCIM用于低资源分子优化的元学
TUhjnbcbe - 2023/8/31 18:56:00

00

导语

今天给大家介绍的是中山大学和星药科技在JournalofChemicalInformationandModeling上联合发表的文章“MetaLearningforLow-ResourceMolecularOptimization”。本工作中,作者针对少样本分子优化任务提出了一种基于Reptile的元学习分子优化算法Meta-MO。Meta-MO利用一组具有丰富训练样本的元任务优化训练得到一个元模型,并将学习到的元模型适配到少样本新靶标的分子优化任务上。

01

背景

设计具有所需功能的分子是药物发现过程的核心。合理药物设计的常用策略是通过从具有潜力的已知活性分子入手来进行改造,其目标是通过优化已有的苗头化合物来寻找药物活性更高、DMPK更好并且副作用更小的的新型分子。然而,由于对于一个目标靶标往往只有非常少量的已知苗头化合物数据作为参考,以此设计出令人满意的先导化合物仍然十分具有挑战性。

传统的计算优化方法利用专家制定的规则,通常需要大量的数据和特征工程,且很难生成具有新颖骨架的化合物。随着深度学习技术的发展和构效关系数据的剧增,多种生成神经网络方法联合强化学习或贝叶斯优化已经能够生成出有所需特性的新颖而多样的分子。但是,这些方法倾向于从零开始生成分子,而不是考虑将已知活性化合物作为模板进行改造,因而通常不适用于分子优化任务。

最近有几项研究尝试使用监督学习范式来将参考化合物(下简称为源分子)转换为具有所需特性的目标化合物,其中Jin[1]等人将分子优化重新定义为为源分子图到目标分子图的图翻译问题,为了训练这种基于图的方法,研究人员使用固定的分子相似度阈值和性质差值作为构建函数,生成了数万的分子对(molecularpairs)数据集。该工作巧妙地将分子优化问题转化为一个有监督的机器翻译问题,但由于其构建的数据集是基于虚拟的性质差值得到的,并不能很好地迁移到真实世界的分子优化任务中。实际上,真实场景下大部分靶标的分子优化任务可能只有少数(个)活性化合物样本,难以构建出如此庞大的分子对数据集以帮助模型训练收敛。

对于这类少样本问题,一个出色的解决方案是元学习。元学习通过元模型的任务迁移对新任务进行高效适配。这项工作中,研究人员通过将不同蛋白质靶标中的分子生物活性优化数据视为单独的分子优化任务,从一系列资源丰富的靶标中学习了元模型,这样训练得到的元模型能够针对少样本蛋白质靶标的候选分子进行有效优化。

02

方法

数据预处理

为了评估分子优化方法,研究人员从ChEMBL20的子集中构建了分子优化的数据集,并使用定制的打分函数进行训练和大规模评估。

为了构造符合分子优化任务要求的数据,研究人员按照Hussain等人提出的匹配分子对(MMP)切割算法的思想来构建数据集。为了避免潜在的偏差,将每个蛋白激酶的生物活性分子按6:2:2随机分成训练、验证和测试,然后在相似度和生物活性提高等约束下对训练分子进行配对,并筛掉训练分子对数量少于的蛋白激酶,得到64个蛋白激酶的分子优化任务数据。这64个任务按57:1:6进一步分为元训练、元验证和元测试任务,作为最终的多任务分子优化数据集。

Meta-MO

Meta-MO使用Reptile元学习算法进行小样本的分子优化,该方法通过迭代采样57个元训练任务以及快速任务适配学习到一套模型的预训练参数,该参数隐含了为各蛋白激酶进行分子优化的元信息,使得通过该参数在元验证和元测试任上进行小样本的模型迁移后,可以实现比普通方法更好的分子优化效果。

图:元学习用于分子优化的工作流程

尽管这项工作使用的是基于优化的模型无关元学习算法,但仍需要有效的基本分子优化模型来进行高效的模型预训练和测试期间的验证。以前的基于图翻译的分子优化模型因训练过程脆弱和化学多样性有限而受到批评。因此,研究人员采用了基于图增强的序列模型Transformer(GET)作为分子优化的基础模型,并在构建的多任务分子优化数据上与其他方法对比了多任务学习的效果。

评估指标

研究人员采用以下五个指标进行评估,部分遵循Jin等人的工作:

「相似度」输入分子与输出分子之间的相似度。

「成功率(SR)」成功率是核心指标,是成功优化(满足相似性约束和活性提高约束)的分子在测试集所有分子中所占的百分比。

「独特性」独特性计算所有生成的分子中独一无二的分子所占百分比。

「多样性」多样性定义为源分子与生成的有效候选目标分子之间的平均差异,两个分子的差异定位为1-谷本系数。

「有效性」有效性衡量的是所有生成的序列中有SMILES字符串的百分比。

图:基于图增强的Transformer模型框架

03

结果

多激酶数据集的模型性能

研究人员收集了三种流行的分子生成基本模型。为了为分子优化任务选择合适的模型,研究人员在多任务分子优化方案中实现了这些基本模型,以避免对元学习方法的潜在偏差。

不同训练策略下的性能比较

研究人员通过实验比较了不同模型参数或预训练策略的分子优化效果,这些策略包括不进行模型预训练的策略,多任务预训练,元学习,以及多任务预训练和元学习各自的零样本学习策略。此外,研究人员通过对比预训练阶段不同轮数下的元验证任务效果,验证了元学习算法的学习规律。

不同迁移数据量的性能比较

研究人员从高到低设置了不同规模的元验证和元测试任务的训练数据量,包括%,80%,60%,40%,20%,,,64,32,16。在这些不同数据量下,元学习方法都整体好于多任务预训练方法。值得注意的是,研究者们发现MetaMO在大部分少样本任务上仅需要64个分子对便可以有效地进行分子优化。

最后,研究人员对一个元测试任务的分子优化实例进行了分析,对比了元学习和多任务预训练的效果。

04

讨论和结论

这项工作中,研究人员针对低资源分子优化任务提出了一种基于Reptile元学习算法的分子优化方法Meta-MO。这是首个将元学习应用于分子优化任务的研究。研究人员在构建的具有各种低资源蛋白质靶标分子活性优化数据的多任务分子优化数据集上评估了Meta-MO的表现。结果表明,在多种实验设置下,Meta-MO都明显优于其他方法。研究人员进一步分析了Meta-MO的模型效果,并表明它比其他方法能够更有效地进行少样本分子优化。

Reference

[1]Jin,Wengong,etal.Learningmultimodalgraph-to-graphtranslationformolecularoptimization.arXivpreprintarXiv:.().

[2]Wang,Jiahao,etal.MetaLearningforLow-ResourceMolecularOptimization.JournalofChemicalInformationandModeling().

1
查看完整版本: 星药发表JCIM用于低资源分子优化的元学