未来十年，AI药物研发新范式和浪潮

深圳北鲲云计算有限公司

2022年6月29日 17:33

传统的药物研发高度依赖药化专家的个人经验与创造力，不可避免地存在周期长、成本高、成功率低等问题。一个创新药从研发到最后上市，需要花费数十亿美元和10~15年的时间。鉴于种种痛点，如何将人工智能(AI)药物研发新范式应用于药物研发领域是制药行业一直以来探索的革新方向。随着近年来AI在各个领域的巨大成功，基于AI的药物研发势必成为医药行业的革命性力量，有望从根本上改变传统的试错药物设计流程，基于AI的药物设计流程如图1所示。

图1. AI可以通过不同的方式进行药物开发，包括药物筛选、多向药理学、药物再纯化、化学合成、药物设计等

目前，基于AI的药物设计的确取得了可喜的进展。例如Insilico Medicine应用深度学习技术，发现了强效的DDR1抑制剂。英国Exscienceia公司开发了世界上第一个AI设计的药物(DSP-1181)，于2020年进入第I期临床试验，2021年又开发了另外两种临床试验药物。DeepMind的AlphaFold 则是另一个革命性的突破。其前所未有的结构预测精度可以对基于结构的药物设计产生潜在的影响，特别是对于尚未从结构上解决的新靶点。

尽管在以AI为基础的药物开发方面取得了上述令人兴奋的成果，但我们仍然无法确定这些早期成果能否转化为更有效、成功率较高的药物。药物开发中的关键问题是候选分子在临床试验中的失败。提高临床试验的成功率可以说是降低总成本的最深刻因素，超过其他阶段的节省。主要挑战是识别不仅有效而且不会引起毒性和其他意想不到的副作用的候选分子。AI如何对此有所帮助?我们需要重新思考如何将AI纳入药物开发途径。在这方面，我们强调两种范式，即主动学习和可解释的AI，作为基于AI的药物发展的未来方向。

作为一种数据驱动的方法，基于AI的药物研发的优势在于能够挖掘大规模数据并提取对人类来说可能不太显著或过于复杂的模式。因此，如何真正利用数据的价值是构建成功的AI模型的关键。将AI用于药物开发过程的一个常规和流行的范式是，从实验数据(例如高通量筛选、试验/动物验证数据)中线性调用AI模型，以方便预测。

图2.传统的基于AI的药物研发范式，AI与数据生成以线性方式连接

在这种范式中，AI模型通常被用来筛选潜在分子的虚拟库，并预测那些可能具有理想特性的虚拟库，这些特性可以通过下游实验加以验证。这种线性范式的主要局限在于新发现的效率：模型的预测虽然具有潜在的信息，但直到实验验证才是"受过训练的猜测"。不幸的是，用高通量筛选的巨大努力来彻底验证预测模型往往是不可行的。为了应对这一挑战，逐渐得到认可的一个很有前途的解决方案是主动学习，它是AI的一个子领域，将数据和计算紧密结合起来，以改进预测模型。主动学习将传统的基于AI的发展从线性过程转变为迭代范式如图3所示。

图3.基于AI的药物开发主动学习范式，AI与数据生成形成迭代反馈回路

主动学习不是将AI和实验生物学作为过程中的孤立工具，而是在两者之间创建一个相互告知的互动反馈回路，以改善整体结果。例如，在对初始公共数据集进行训练并预测虚拟库中分子的性质后，AI模型可能会通过提出少数分子，包括预期成功的分子和预期失败的分子来规划下一步的步骤，以便进行实验验证。使主动学习具有吸引力的是药物开发者可以迭代地利用AI生成的假设设计并执行下一轮实验的迭代循环：AI模型可以先推荐分子进行合成和验证，验证结果再用于进一步修正或加强模型的预测能力，模型的新预测告知另一个测试和分析周期。这些数据计算相互作用从而更有效地指导药物开发者发现具有理想性质的新分子。此外，数据计算循环还允许生成专门针对AI应用程序的数据。相比之下，现有数据存在与数量或质量相关的局限性，可能并不适用于每一种AI算法。许多AI驱动的药物发现公司，如Insitro已经将AI与数据生成结合起来以发现新的治疗药物，而不是将其中一个放在另一个优先位置上。

除了能够充分挖掘数据的价值之外，这种范式的另一个优点是AI与人类智能之间的协同作用，医学化学家可以引导AI更精确和更有创造性，AI可以增强专家发现改进和新颖药物的能力。然而，这需要对人类具有解释力的AI模型，即揭示预测背后的内在理据。由于AI支持的药物设计是一个高叠层决策问题，因此，尽管模型的预测精度令人印象深刻，但对模型做出一定预测的原因的解释却要求很高。将机理可解释性模型与高精度模型相结合是AI加速药物发现的关键。

了解成功的AI设计分子的机理解释将引导未来的药物设计。设计新药本质上是一个通过改变分子结构来优化药理活性的问题，识别与之相关的结构元素至关重要。例如，在基于AI的抗体设计中，一个揭开抗体与抗原残基之间存在相互作用的模型将解释高性能抗体的结构基础。

大多数现代AI模型，如深度神经网络，都是“黑匣子”，回避了人脑的可达性，这可能会妨碍科学家评估AI生成假设的新颖性或可靠性。以Insilico公司AI发现的DDR1抑制剂为例：发现该化合物与市售药物Ponatinib高度相似。Ponatinib是一种DDR1抑制剂，针对许多其他激酶，由于其潜在的副作用，被美国FDA给出盒装警告。鉴于其与Ponatinib的惊人相似性，Insilico化合物的选择性和安全性应该受到质疑。这个例子突出了AI模型的可解释性和透明性对于药物发现的重要性。

图4. AI发现新DDR1抑制剂工作流程以及优势化合物结构

最好的是，AI模型应该揭示它如何达到特定的预测，例如，基于哪些数据集来训练分子。了解AI预测的洞察力和逻辑性，将有助于科学家避免错误原因的正确预测，揭示对人类心灵过于微妙的警示。可解释AI是机器学习共同体中一个活跃的方向，它在药物开发中的应用将有利于创造AI、实验生物学和人类反馈的迭代循环。

几十年来，药物开发一直都费时费力，且费用昂贵。AI令人印象深刻突破使我们的思维定势转向设计药物的新范式。我们预计，未来十年基于AI的药物开发将呈现出可解释性AI方法和主动学习算法的深度介入，这些方法迭代地改进工作流程，产生科学家可以对药物开发的每一个阶段进行监控、分析和理解的可解释性见解。

图5. 部分国内AI制药公司融资情况

2006年以来，在高性能计算和深度学习的推动下，人工智能发展迅速，进入第三次浪潮，开始广泛应用于图像分类、语音识别、知识问答、人机对弈、无人驾驶等领域。也促使很多创业公司以及互联网科技企业开始探索人工智能在药物研发中的应用。全球各大药企纷纷布局AI药物研发，一些AI药物研发公司借助这股浪潮纷纷开启上市之路。

国内AI制药公司投资热度也不断高涨，多家公司两轮融资时间间隔不超过一年，如晶泰科技从成立以来，已累计完成 6轮融资，其中C 轮在当时创下全球AI药物研发领域单笔融资额的最高纪录。互联网科技巨头也纷纷布局AI制药领域，如阿里巴巴、腾讯、字节跳动、百度、华为，他们依托自己的云计算服务平台，自主研发AI药物设计算法，阿里在基因测序以及医学诊断方面表现出优势，腾讯在ADMET预测和分子合成路线预测方面的技术也日趋完善，国内的AI制药公司正处于萌发和快速成长阶段。

2020-2021上市的AI/计算制药公司汇总

随着各大AI制药公司的茁壮成长，以及云计算平台技术的进步，我们相信未来AI制药一定会有着巨大的进步。这里我们再一次提及基于AI技术的AlphaFold2，它被科学家认为是AI技术在量变到质变的一场革命。过去半个多世纪，生物学家主要利用X射线晶体学或冷冻电镜（cryo-EM）等实验技术来破译蛋白质的三维结构。这些方法耗时长，失败率高。如今，人类已经发现生命体内存在2亿多个蛋白质，而其中只有约17万蛋白质的结构经实验破解。AlphaFold2的问世，在一年之内就实现了预测这些蛋白质中58%的结构，因为无固定结构的氨基酸比例很大，58%的结构预测已经接近极限了。

诸如北鲲云这类易用、快速、经济的云超算平台的普及，越来越多的药物研发工作者可以非常方便地使用到这些最先进的AI技术工具。北鲲云超算平台部署了AlphaFold2工具，而且借助最新硬件资源（如NVIDIA A100），预测2116个氨基酸的三维结构，只需要12个小时即可完成。快速、低成本的特性可以实现规模化预测，这无疑是AI制药领域的一味催化剂。

借助北鲲云超算平台，科学研究已无需自己配备高性能的计算机，只需要登录北鲲云超算平台在线操作即可，为科研的发展提供极大的助力。以下是北鲲云超算平台比较吸引我的几点优势，供大家参考。