一个人在成长过程中会遇到各种各样的选择问题,如一些人生规划的抉择:上哪所大学,学什么专业,去哪家公司,等等。再如我们进入一家电玩城,那里摆着一排老虎机,虽然外表一模一样,但是每个老虎机吐钱的概率却不一样,作为一名资深玩家应该选择摇动哪台老虎机呢(图1)?这些选择问题有没有什么科学的办法来解决呢?答案是:有!而且是非常科学的办法,那就是强化学习中的多臂老虎机算法。该算法可以科学地推荐收益最大的方案,而且能够应用于许多领域,如:一种新疾病(如新冠),如何尝试各种治疗方法,来尽快治愈病人?一个新产品,如何调整定价,来获得最大收入?一个新闻稿,如何尝试推荐,来获得最多总点击次数?在大名鼎鼎的阿尔法狗(AlphaGo)中,也能看到多臂老虎机算法的身影。
图1. 多臂老虎机模型
最近,伟德国际1946官网的刘志荣教授课题组将多臂老虎机算法应用于天然无序蛋白质的药物设计问题,大大加速了基于构象系综的配体虚拟筛选过程(图2)。
图2. 多臂老虎机的强化学习算法可以应用于无序蛋白的配体虚拟筛选。
天然无序蛋白质(Intrinsically Disordered Proteins)没有固定的三维结构,却具有正常的生物学功能,不但是对蛋白质“结构-功能”传统范式的重要补充,而且因其与多种疾病密切相关而成为重要的潜在药物靶标。无序蛋白与小分子的相互作用机制与传统的有序蛋白迥然不同,在生理条件下是以包含很多不同构象的系综形式存在的,单单针对某一个构象设计药物并不能保证对整个无序蛋白系综的结合有效性。如果对系综中的所有构象进行分子对接,再结合统计热力学原理将对接结果综合起来,理论上是可以得到药物配体与无序蛋白的结合亲和力(J. Chem. Inf. Model. 2020, 60, 4967)(图3)。但是,与传统的药物设计流程相比,这种做法的计算量将暴增成千上万倍,这在实际应用中是无法接受的。那么,有没有可能存在某种算法,既能够大大降低计算量,又能保持较高的筛选性能?
图3. 表观亲和力与单个构象和配体的相互作用自由能有关
事实上,这种可能性是存在的。关键是需要认识到虚拟筛选的目的不是准确地计算所有小分子配体(数目通常高达十万)的亲和力,而是筛选出少量的(数目在100左右)具有最大亲和力的“顶尖”配体。对于位于金字塔底部的大量配体,是没有必要准确计算的。这与多臂老虎机问题非常相似。对于这个老虎机问题,显然最佳的做法是找到那个预期收益最大的拉杆并不断地去拉动它。但是,玩家无法预先知道每一个拉杆的期望值,必须根据拉动的结果来动态地进行估计。多臂老虎机问题的目的是找出最有价值的1个拉杆,而虚拟筛选的目的是找出最有价值的100个配体,它们的核心问题是共通的。
基于这些认识,刘志荣课题组提出了一种可逆的UCB算法(reversible upper confidence bound, rUCB),用于对无序蛋白的强化学习虚拟筛选过程。在测试中,rUCB展现出了非常优异的效果。例如,在人工数据的测试中,对于十万个配体,只需要进行二十万次对接(即平均每个配体只需要对接两次),所挑选出的亲和力最大的100个配体的准确性高达94%。对真实癌蛋白c-Myc的虚拟筛选中,rUCB也有很好的效果(图4)。
图4. 强化学习rUCB算法在癌蛋白c-Myc的配体虚拟筛选中的结果。
该工作表明强化学习算法可以有效解决无序蛋白药物设计的配体虚拟对接中构象数目过多所导致的瓶颈问题。研究成果以“Reinforcement learning to boost molecular docking upon protein conformational ensemble”为题发表在Phys. Chem. Chem. Phys. (2021, 23, 6800-6806)上。(https://pubs.rsc.org/en/content/articlelanding/2021/cp/d0cp06378a#!divAbstract)。 论文第一作者为伟德国际1946官网化学学院2021届博士毕业生崇滨,通讯作者为刘志荣教授。该项研究受到国家自然科学基金委员会重点项目(21633001)和北京分子科学国家研究中心的资助。