文献阅读的方法主要借鉴于沐神，不知道的同学可以去B站搜索跟李沐学AI。

这里简单介绍一下，就是文献读三遍，第一遍只读摘要和总结，了解文章大概是干了什么，第二遍全文通读，整体了解文章大致的工作流，存在的问题可以暂且搁置，最后一遍仔细阅读，详细了解文章的各种实现方法和原理以及作者个人的思路。
读文献重要的不仅仅是文献中实现的方法和模型，更应该注重阅读文献中作者的思路，作者的逻辑性，很多时候科学研究也和作者的个人对于世界、模型的理解息息相关。

本次阅读的文献是来自中科院上海药物所郑明月老师团队2020年发表在JMC上的文献Pushing the Boundaries of Molecular Representation for Drug Discovery with the Graph Attention Mechanism

第一遍阅读

摘要

Hunting for chemicals with favorable pharma-cological, toxicological, and pharmacokinetic properties remains a formidable challenge for drug discovery. Deeplearning provides us with powerful tools to build predictive models that are appropriate for the rising amounts of data, but the gap between what these neural networks learn and what human beings can comprehend is growing. Moreover, this gap may induce distrust and restrict deep learning applications in practice. Here, we introduce a new graph neural network architecture called Attentive FP for molecular representation that uses a graph attention mechanism to learn from relevant drug discovery data sets. We demonstrate that Attentive FP achieves state-of-the-art predictive performances on a variety of data sets and that what it learns is interpretable. The feature visualization for Attentive FP suggests that it automatically learns nonlocal intramolecular interactions from specified tasks, which can help us gain chemical insights directly from data beyond human perception.

寻找具有良好药理学、毒理学和药代动力学特性的化合物仍然是药物发现中的一大挑战。深度学习为我们提供了强大的工具，以建立适合不断增加的数据量的预测模型，但这些神经网络所学习的内容与人类所能理解的内容之间的差距也在扩大。此外，这种差距可能会引发不信任并限制深度学习在实践中的应用。在此，我们介绍了一种新的图神经网络架构，称为Attentive FP，用于分子表示，它使用图注意机制从相关的药物发现数据集中学习。我们证明了Attentive FP在各种数据集上实现了最先进的预测性能，并且它所学习的内容是可解释的。Attentive FP的特征可视化表明，它可以自动从指定任务中学习到分子内部的非局部相互作用，这可以帮助我们从数据中直接获得超越人类感知的化学见解。

文章摘要简要介绍了

目前存在的挑战——寻找良好药理、毒理、药代动力学特性的化合物
预测模型的不可理解性，以及可能带来的恶性影响
简要介绍了作者实现的Attentive FP模型以及他实现的功能

结论

An ambitious goal for drug design is to read properties directly from chemical structure; however, it remains an open question as to what extent and how accurately information can be extracted. Other related tasks, such as reaction outcome and yield predictions, retrosynthesis analysis, and synthetic planning, can also gain essential benefits from better molecular representations for property prediction. Molecular representation with a deep learning approach provides a viable option, which can not only help establish a predictive model for molecular properties but also recreate knowledge from existing data and even form new theories to describe chemicalsystems. In this direction, much more effort is still required not only to improve the predictive power of the resulting model but also to interpret the model rather than simply accepting the “black box” results. In this work, we proposed Attentive FP, a small molecule representation framework based on a graph neural network. The adoption of graph attention mechanisms at both the atom and molecule levels allows this new representation framework to learn both local and nonlocal properties of a given chemical structure. Accordingly, it captures subtle substructure patterns such as intramolecular hydrogen bonding and aromatic systems, contributing to its excellent learning capability for a wide range of different molecular properties. Moreover, inverting the Attentive FP model by extracting the hidden layers or attention weights provides access to the model’s interpretation, which will help chemists gain insights into the skyrocketing volume and complexity of drug discovery data.

药物设计的一个宏伟目标是直接从化学结构中读取属性。然而，目前仍然存在一个开放性问题，即信息可以在多大程度上和多准确地被提取。其他相关任务，如反应结果和产率预测、逆合成分析以及合成规划，也可以从更好的分子表示中获得重要的益处，以进行属性预测。利用深度学习方法进行分子表示提供了一种可行的选择，这不仅有助于建立分子属性的预测模型，还可以从现有数据中再创造知识，甚至形成描述化学系统的新理论。在这一方向上，仍需付出更多努力，不仅要提高所得模型的预测能力，还要解释模型，而不仅仅是接受“黑箱”结果。

在这项工作中，我们提出了基于图神经网络的小分子表示框架Attentive FP。在原子和分子层级采用图注意力机制，使这一新的表示框架能够学习给定化学结构的局部和非局部属性。因此，它能够捕捉到微妙的子结构模式，如分子内氢键和芳香系统，从而在各种不同的分子属性学习方面表现出色。此外，通过提取隐藏层或注意力权重来反转Attentive FP模型，可以实现对模型的解释，这将帮助化学家深入理解药物发现过程中急剧增加的复杂数据量。

结尾部分首先介绍了分子信息提取的重要性，作者认为可以从化学结构中直接读取属性（这也是一个美好的愿景，这样人类就有了掌控分子性质的“魔法”，只需要构建合适的化学结构就可以得到相关的分子性质）。
然后作者认为利用深度学习方法进行分子表示是有价值的，可以从各方面助力计算机辅助药物设计的发展。
最后作者重新描述了他们的模型，在原子和分子层面采用图注意力机制的新框架，并吹了一下在各个属性学习方面表现都很出色，不仅如此，他们的模型还可以通过提取隐藏层和注意力权重来实现模型解释，帮助化学家理解药物发现。

第一遍阅读总结

现在我们大致了解了这篇文章的干的事情，为了提高预测模型的可解释性，也为了拥有可以提取更多特征的预测模型，作者开发了一个基于图神经网络的小分子表示框架Attentive FP，可以学习化学结构局部和非局部属性，捕捉到更多的分子信息，也能实现模型的一定解释性。

咱们的第一遍阅读到这里就结束了，这时候你就需要判断一下自己需不需要认真阅读这篇论文了，如果这篇文章的内容与你研究的方向无关，或是你对他一点兴趣都没有，这时候你就可以去阅读下一篇文章了。
但是如果你对这篇文章的工作感兴趣，比如你想要学习一下他的框架，使用他的模型，或者是想看看它是怎么实现模型解释性的，咱们就可以开始第二遍阅读了。

第二遍阅读

引言

引言部分一般起到承上启下的作用，用咱们高中语文的理解来说，就是介绍背景，吸引读者阅读

一般流程如下：

研究背景——研究现状——存在的问题——别人的解决办法——别人解决办法存在的问题——目前尚待解决的问题——我们的方法——吹一波我们方法的优秀之处。

出于篇幅考虑，引言部分咱就不放英文原文了，直接上翻译搭配着讲，感兴趣的同学可以自己去搜索原文阅读一下。

高效的药物化学依赖于对分子结构的联想推理和[模式识别]。然而，使用经验性的“药物相似性”规则和“特权”化学（子）结构正在失败，因为容易获得的化合物变得越来越少。即使是最有经验的药物化学家在优先选择化合物时也会有不同的偏好。寻找具有良好药理学、毒理学和药代动力学特性的化合物的挑战不仅源于生物体系统的不确定性，还来自于化学分子系统中信息的复杂含义，因为人类无法直接从化学结构中确定这些特性。一个分子结构通常由多体相互作用和复杂的电子构型组成，这使得构建其全面表示成为一项不平凡的任务。鉴于数据量的增加和化学及生物系统的复杂性，药物化学家一直在“混乱的边缘”工作，迫切需要来自AI的增强智能。

介绍研究背景，传统的经验方法已经被用烂了，能找到的分子都找了个七七八八，而且这种经验的方法还很容易收到个人的影响，人类根本理解不了这些复杂的关系。

所以——需要Ai的加入来改变现状

这段介绍了一下研究的背景，引入了人工智能的应用，不出意外的话下一段就会开始介绍目前人工智能在这个利用的研究现状，我们接着往下看。

在过去的几年里，有关化合物生物效应的大量数据已经积累并公开。此外，由于高性能计算（HPC）的快速进展，越来越多的大规模高质量量子化学计算结果已与研究社区共享。在所有与药物发现相关的研究领域中，数据生成速度的增加为理解对分子设计有用的特性或作用提供了前所未有的机会，并为产生机制假设提供了支持。因此，构建能够拟合和预测昂贵的生物测定和量子化学计算的大数据的机器学习模型是很有意义的。许多成功应用机器学习方法的案例已经报道，展示了AI在学术界和工业界的未来。然而，与图像或语音识别等领域相比，生成适合的化学结构表示以提取最相关的特性信息仍然具有挑战性。

说明一下使用这些方法是有意义的，但是这些方法在化学结构表示以及特性信息提取中应用还是有挑战性。

按照惯例，接下来应该要介绍过往的工作，也就是别人的解决办法了。

在这方面，分子表示可以定义为一种将分子结构中编码的化学信息转化为数值矩阵的逻辑或数学程序。分子描述符或“指纹”经常用于分子表示。目前，已有超过5000种分子描述符被设计用于表征化学含义。传统的QSAR/QSPR机器学习方法围绕这些分子描述符的特征工程展开，其目标是选择相关描述符的子集用于模型构建。根据其原始输入形式，这些分子表示可以分为基于图的表示和基于几何的表示。基于图的表示仅采用关于原子拓扑排列的信息作为输入，而基于几何的表示则采用分子几何信息，包括键长、键角和扭转角。除了化学家设计的分子描述符或指纹外，越来越多的分子表示是由深度学习模型从简单的原始输入中自动生成的。例如，通过拟合量子化学计算到简单的原始输入，深度神经网络模型学习到的分子表示激增。

介绍过往的分子表征方法，有分子描述符、分子指纹。他们可以分类为基于图的表征和基于几何的表征，一个注重拓扑排列信息一个注重分子几何信息。除了这些方法，还有通过深度学习自动生成的方法（隐变量）

这部分介绍了过往的工作，接下来应该是介绍过往工作存在的一些问题。

虽然分子表示似乎受益于分子三维（3D）构象的先验知识，但现实考虑如计算成本、对齐不变性和构象生成的不确定性限制了基于几何特征表示的使用。

例如，对于大多数药物发现应用，给定结合过程中小分子的活性构象通常是未知的。在这种情况下，基于图的分子表示更为合适；然而，这两类分子表示之间的差距通常缺乏可转移性，不能互换地预测特性。因此，问题在于是否可以应用于分子图的神经网络架构桥接这一差距，使分子表示更具泛化性。

介绍存在的问题，三维的分子表示显然是更好的，但是出于现实考虑这种表示方法是受到限制，作者举例说明了一下。因为结合过程中分子的活性构象是会发生变化的，你确定的三维构象可能并不是实际结合过程中的构象，所以用图来表征一般更合适。

但是作者又补充了，从这两种表征学习到的特征是互不冲突的（因为存在差距，而且互相难以转移，说明模型很可能从这两种表示里学到了不同的特征），把他们结合起来应当是更好的，所以作者就想，能不能用一种分子图的神经网络模型架构来桥接这一个差距，来让分子的表示更泛化。

分子结构通常涉及多体相互作用和复杂的电子结构，但分子图简化了表示的复杂性，其中节点和边分别表示原子和键。分子图假设分子中原子核和电子之间的关键相互作用可以通过图隐含地捕获，这为分子的几何形状、功能和特性提供了洞察力。最近，在设计从图结构数据中学习表示的神经网络架构方面取得了实质性进展。这些架构的基本原理是学习一种映射形式（也称为嵌入）节点和边的表示，完全捕捉图信息，特别是用于推断节点之间的关系。与以前的图拓扑表示方法相比，最近的神经网络方法在捕捉不显著模式方面更强大，并且需要较少的特征工程工作。

介绍图神经网络的背景

code

与以前的基于图的分子表示相比，Attentive FP在评估相邻原子影响方面更具区分性。

图a概括了最近的分子神经图表示。给定一个目标节点，灰色节点表示不同基于图的分子表示方案中影响目标节点的邻居节点的概率。节点颜色越深，对目标节点的影响越大。对于Neural FP和GCN模型，邻居节点在递归传播过程中对目标节点影响的概率随着拓扑距离的增加而减小。在化学分子中，拓扑上距离较远的原子对也可能具有显著的相互作用，因此影响整体分子特性。一种理想的分子图表示框架应该能够捕捉到分子中即使是距离较远的原子之间的信息，例如分子内氢键。最近，Weave和MPNN被提出用来构建连接分子图中每对节点的虚拟边，这意味着任何节点，无论其与目标节点的距离如何，都有平等的机会产生影响，类似于目标节点的直接邻居。在这些方案下，所有原子都可以相互影响而没有距离限制。对于诸如社交网络等复杂图，这些方案在描述从节点到节点自由流动的信息方面效果良好。然而，对于分子图，存在受物理法则支配的内在结构，节点之间的信息流也受到限制。拓扑上相邻的节点有更大的机会相互影响，并且在某些情况下可以形成功能组。从这个意义上说，Weave和MPNN表示方案倾向于使所有邻居的影响变弱，因为其平均效应。

这里作者介绍了过往的工作以及他们存在的问题

首先是Neural FP和GCN模型，他们不好的原因是因为化学分子中距离远近并不能单纯称为评判原子影响的标准

然后是Weave和MPNN模型，作者认为，虽然他们让所有原子互相之间都有影响，但是作者认为，分子之间也不是所有原子都能互相影响的，相邻的影响应当更大，而Weave和MPNN反而让相邻的影响相对更弱了。

批判完过往的模型，作者就要介绍自己的模型了~

在此，我们提出了一种新的基于图的神经网络架构，Attentive FP，用于表示分子。Attentive FP不仅通过将节点信息从附近节点传播到更远的节点来表征原子的局部环境，还通过应用图注意机制允许分子内的非局部效应。这样，我们得到的Attentive FP足够强大，可以有效地在尊重分子拓扑结构内在前提下捕捉任意节点之间的隐藏关键联系。在此，我们使用Neural FP和MoleculeNet的基准测试进行无偏性能评估。我们的Attentive FP在建模涉及物理化学、生物物理学和生理学的广泛分子特性方面实现了最先进的结果。更令人瞩目的是，它在qm9数据集上的预测能力与最近报道的基于几何的表示相当，即使没有预先提供分子构象数据。此外，学习到的图连接和节点特征的可视化与我们对化学分子结构的直觉很好地吻合，也揭示了Attentive FP确实可以提取大多数基于图的表示难以处理的分子内非局部相互作用。

作者提出了一个新的架构 Attentive FP，解决了上述问题。并且在各种评估中实现了最先进的结果。

吹自己模型的时间~

以上就是引言的全部内容了，总体可以当作背景知识，如果你啥都不懂，可以认真去了解一下；如果你有一定了解，就可以粗略看看作者具体解决了什么问题，思路是什么？

简单来说，这部分作者的思路大致是：我觉得现在的分子表示方式虽然很多，有各种描述符，但是采用深度学习的描述方式还很少。然后经过调研，发现目前的深度学习分子表征方法的的确确存在不全面的地方，作者针对他认为不够全面的地方进行了自己的优化，并且得到了很好的结果。

方法

这一部分就是作者具体的方法了。这一部分是最复杂的，第二遍阅读可以不求全部理解，因此可以粗略阅读，看不懂的时候就先跳过，等到第三遍再去细看。这里出于篇幅原因，我就不做第三遍阅读了，第二遍就将讲解注释在边上了~

图注意力机制

注意机制允许方法专注于神经网络中与任务相关的部分。对于序列结构数据的任务，应用注意机制已成为常规做法，以便模型能够专注于输入的最相关部分，从而实现更好的预测。最近，Velickovic 和 Bengio 等人提出了图注意网络（GATs），将注意机制扩展到图结构数据，用于节点分类任务。将注意机制应用于图的核心思想是通过专注于目标节点的邻居和局部环境来获得上下文向量。这个过程可以分为三个操作：(1) 对齐，(2) 加权，(3) 上下文，如下所示：

我们先来理解一下这张图。目标节点$v$（特定原子），$h_v$是节点 $v$ 的状态向量，$h_u$是邻居节点（邻居原子）$u$ 的状态向量。

目标节点 $v$（特定原子），$h_v$是节点 $v$ 的状态向量，$h_u$是邻居节点（邻居原子）$u$ 的状态向量。在此，使用了 leaky_relu 和 elu，作为 relu 非线性激活函数的变体，因为它们更具表达能力，并且通过允许 relu 函数负部分的非零斜率，能够持续表现得更好。具体步骤如下：

(1) 在对齐操作期间，$h_v, h_u$ 连接了目标节点和邻居节点的状态向量，随后进行线性变换，使用可训练的权重矩阵 $W$。$e_{vu}$ 是每对目标-邻居对齐操作的输出。

(2) 在加权操作期间，$e_{vu}$ 通过对邻居节点应用 softmax 函数进一步标准化，并得到 $a_{vu}$，即邻居节点 $u$ 对目标节点 $v$的重要性（权重）。

(3) 在上下文操作期间，对邻居节点的状态向量 $h_u$ 进行线性变换，随后进行加权求和和非线性激活函数，得到目标节点 $v$ 的上下文向量 $C_v$。

对齐：公式（1）
$$
e_{vu}=leaky_relu(W\cdot[h_{v},h_{u}])
$$

这个对齐公式是在做什么呢？h是节点的状态向量，作者将相邻的两个节点v、u的状态向量拼接起来，简单来说假如一个节点的向量形状是[16, 1]，拼接以后向量就变为了[32, 1]，这个拼接以后的向量乘权重矩阵W[1, 32]后,得到需要的对齐得分e

加权：公式（2）
$$
a_{vu}=softmax(e_{vu})=\frac{\exp(e_{vu})}{\sum_{u\in N(v)}\exp(e_{vu})}
$$

再通过softmax对对齐得分进行标准化，简单来说就是把每一部分对目标节点的影响转化为了一个概率分数，打个比方可能是a32 = 0.5 a34 = 0.3 a35 = 0.2 ，这一定程度表示了每个节点对目标节点的影响（2、4、5）、也就是说a代表了对应节点对目标节点的影响分数，即权重。

上下文：公式（3）
$$
C_v=elu\Bigg(\sum_{u\in N(v)}a_{vu}\cdot W\cdot h_u\Bigg)
$$

先简要介绍一下elu和lucky_relu的区别，他们都是再ReLU的基础上修改的激活函数，都增加了ReLU函数的负数区间，elu是曲线缓慢下降的，而lucky_relu是以一个很小的斜率线性下降的。可以当作就是ReLU激活，只是保留了一定负值。

最后一步如何获取上下文呢？作者将对应相邻节点的状态向量×权重矩阵W（这个是可训练的）×对应的权重并把向量节点的特征向量相加，得到目标节点的上下文向量$C_v$。注意，阅读上文的图就可以发现，这两个权重矩阵W不是一个哦~

图神经网络（GNNs）

神经网络通常在线性变换之后引入非线性激活函数；这种方法能够逼近任何函数，但不一定确保所得模型的泛化能力。设计在特定领域中能够很好地泛化的可行神经网络是解决实际问题所必需的。从概念上讲，图神经网络（GNNs）扩展了神经网络方法，以处理图结构数据，如社交网络、推荐系统、生物蛋白质-蛋白质相互作用（PPI）网络和分子图结构。GNNs 包括使用递归神经网络（RNNs）的迭代过程，该过程聚合了从近到远的节点的“消息”。根据现有的GNN架构，其中包括消息传递阶段和读取阶段，我们的 Attentive FP 的公式如下：

Messaging:
$$
C_v^{k-1}=\sum_{u\in N(v)}M^{k-1}(h_u^{k-1},h_v^{k-1})
$$

这里不了解GRU门控单元的同学可以去找找视频教学补补课，沐神的课讲的都很好。

还记得吗？$C_v^{k-1}$就是第k-1个上下文向量，如下图所示，这个网络架构到底是在做什么呢？

我们之前已经知道了，某个点（原子）的状态向量h可以通过对齐、加权然后求取上下文，这样我们就得到的它的相邻节点的上下文信息，然后作者将原始的状态向量h和针对相邻节点得到的上下文信息，作为GRU门控单元的输入用来得到下一个状态向量$h_v^1$

Readout:
$$
h_{v}^{k}=\mathrm{GRU}^{k-1}(C_{v}^{k-1}, h_{v}^{k-1})
$$

我们来简单复习一下GRU门控单元的作用，简单来说就是按一定的比例将$C_v^0$和$h_v^0$混合起来，并得到下一个输出。最初是希望在递归神经网络RNN中模型可以学习到上下文的信息，模型学习当前字的同时还会把存有之前上文的字的信息的向量作为共同的输入。

这里做的相当于是保留考虑了节点本身和节点周围信息的一个新的节点特征向量，这里的$h_v^1$可以理解为如下图所示，从原来的红点变成了黄褐色的⭕，因为这个状态向量已经包含了周围节点的一定信息，同理它重复上述过程的相邻节点其实也是学习到周围特征的⭕，通过重复k次这个过程，整个图中节点的相互影响被不断放大，最终每个状态向量都是被所有节点一定程度影响的考虑了整体的大⭕。

其中，$h_{v}^{k}$ 是目标节点v在第k 次迭代后的状态向量，$N(v)$表示节点v的所有邻居。在消息传递阶段，邻居节点通过应用图注意机制$M_{k-1}$（在第k-1 次迭代中称为消息函数）为目标节点聚合信息。在读取阶段，$GRU^{k-1}$（门控循环单元，在第k-1 次迭代中称为更新函数）接收目标节点之前的状态向量$h_{v}^{k-1}$和来自邻居的“消息”注意上下文$C_{v}^{k-1}$，并将之前的状态更新为当前状态$h_{v}^{k}$。

分子特征化

在编码图之前，需要先定义节点特征。这里，我们使用九种原子特征和四种键特征来表征原子及其局部环境（见表1）。除形式电荷和自由基电子数由于其可加性以整数形式编码外，大多数这些特征都是以独热（one-hot）方式编码的。为了创建一个独热编码特征，首先列出该特征的所有候选分类变量，并通过其与这些变量的匹配情况将其标记为1或0（独热或全为空）。例如，一个16位的向量用于编码原子符号，一个6位的向量用于编码杂化状态。需要注意的是，原子手性通过三个不同的比特来编码：一个比特指示该原子是否为手性中心，另外两个比特定义其是否为R型或S型。此外，双键的立体化学类型通过一个特征来表示，以区分其潜在的E/Z构型。

这里还是比较容易理解的，作者使用一个$16+6+1+1+6+1+5+1+2+4+1+1+4=49$维度的向量表征了原子特征和键特征。

（one-hot）编码举例[B, C, N, O, F, Si, P, S, Cl, As, Se, Br, Te, I, At, metal]共16位点对应位点为1其它位点为0

这里的原子手性是用三个比特编码的，一个用来表示它是不是手心中心[0, 1]，另一个是独热编码[0,1]or[1,0]。这里我有一点点疑惑，如果已经表示它不是手性中心那后续的表示应当是[0,0]吗？这会不会带来一些不良特征的学习？因为这很可能和具有手心中心原子的数量息息相关，还有就是如果很多分子都不具有手心中心那又应该如何运作？会不会很受训练集的影响？

注意力FP网络架构

在此，我们提出了一种新的分子表示图神经网络架构，称为Attentive FP，它引入了一种注意力机制来提取分子内水平的非局部效应。该注意力机制允许方法集中在输入中最相关的部分，以实现更好的预测。

图1总结了Attentive FP网络的架构：

（1）我们假设分子及其键特征和原子特征使用RDKit提取，并根据表1进行编码。由于模型是以原子为中心的，每个原子都有自己的邻居特征，这些特征连接了邻近原子和连接键的特征。值得注意的是，原子特征和邻近原子特征的向量长度不同；因此，进行线性变换和非线性激活以统一向量长度。这个过程实际上形成了一个全连接层，并为每个原子及其邻居生成初始状态向量（“嵌入”）。

（2）然后，为了包含更多的局部环境信息，这些初始状态向量通过堆叠的注意力层进一步嵌入进行节点嵌入，使原子能够通过注意力机制逐步聚合来自邻居的“消息”，使原子能够关注其邻居中最相关的“消息”。在每个节点嵌入注意力层中，为每个原子生成一个新的状态向量。经过多个堆叠的注意力层后，状态向量包含更多的邻居信息。

（3）为了将单个原子状态向量合并为一个完整的分子状态向量，我们将整个分子视为一个超级虚拟节点，它连接了分子中的每个原子，并使用相同的原子嵌入注意力机制进行嵌入。这个过程在堆叠的注意力层上进行分子嵌入，并生成整个分子的状态向量。

（4）最终的状态向量是学习到的表示，编码了分子图的结构信息，随后是一个任务相关的层进行预测。整个网络以端到端的方式训练，可以为特定任务或多个任务同时获得一组特定的网络权重参数

在图上的注意力层

注意力层的完整网络架构如图1d和e所示。如图所示，Attentive FP分子表示方案使用两个堆叠的注意力层来从分子图中提取信息。具体来说，一个堆叠（包含k层）用于原子嵌入（图1c），另一个堆叠（包含t层）用于整体分子嵌入（图1e）。对于分子嵌入，假设一个超级虚拟节点连接了分子中的所有原子，所有原子嵌入都被聚合起来。注意力机制在单个原子嵌入和整体分子嵌入步骤中都有引入。对于原子嵌入，给定目标原子v，它的初始原子状态向量$h_v^0$由一个仅包括初始原子和键特征的全连接层生成。为了更好地表示原子v，我们在每一层引入了图注意力机制，该机制结合了其邻域N(v)的信息。第0层的图注意力机制接受目标原子v的当前状态向量$hv^0$和其邻居$hu^0$作为输入。然后对该状态向量进行对齐和加权，以获得原子v的注意力上下文$Cv^0$。输出的注意力上下文被输入到GRU（门控循环单元）中，与目标原子的当前状态向量$hv^0$一起，产生更新后的原子v的状态向量$hv^1$。

© 阿司匹林中原子3的图注意力机制示意图。

(d) 生成目标原子v的状态向量（嵌入向量）的框架。hv^k 和 Cv^k 分别是时间步k时的原子v的状态向量和注意力上下文向量。在更高的时间步中，目标节点嵌入将递归地包含来自更远节点的信息。较深的虚线表示邻居节点的较高注意力权重。

(e) 类似的框架，通过假设一个超级节点连接到分子图中的所有原子来生成整个分子图嵌入。

更直观地说，单个注意力层中的图注意力机制如图1c所示。当将注意力应用于原子3时，原子3的状态向量将与其邻居2、4和5的状态向量对齐，其中连接键的特征也已经通过全连接层进行了嵌入。然后，通过softmax函数计算出衡量我们希望分配给邻居的注意力的权重。接下来，邻域信息的加权和C3被获取为原子3的注意力上下文向量。这些注意力操作帮助模型专注于目标原子的局部环境中与任务相关的信息。最后，原子3的注意力上下文C3与其状态向量h3一起被输入到GRU循环网络单元中。这里使用的GRU是LSTM（长短期记忆）循环网络单元的一种变体，通过简化的更新和重置门显示出良好的性能（补充图1）。

这种方案允许相关信息在不过多丢失的情况下传递，这在我们的情况下意味着远处原子之间的隐含连接仍然可以在与学习任务相关时发挥作用。这正是我们希望实现的分子表示的特性。

总的来说，在我们设计良好的注意力层中，注意力机制使目标节点能够集中于来自其邻居中最相关的信息，而GRU循环网络单元则确保信息在更新迭代过程中有效地传递到邻域中。为了进行分子级别的嵌入，我们假设一个虚拟超级节点连接了分子图中的所有原子，因此整个分子可以以与单个原子相同的方式进行嵌入（图1e）。

到这一部分为止，本文的模型架构介绍基本完毕了，后续的工作是具体的模型训练和结果与讨论部分了。

后面的实验部分就是感兴趣的同学可以学习和参考的部分了。后续部分我就不做过多解读了，感兴趣看看即可。

数据集和基准测试

为了比较目的，我们使用了之前已经进行基准测试的数据集来训练和测试我们的Attentive FP模型。第一组数据集是由Duvenaud等人和Kearnes等人进行基准测试的，包括三个不同的数据集，涵盖溶解度、疟疾生物活性和光电效率。第二组数据集是由Wu等人在MoleculeNet中进行基准测试的。我们测试了该论文中收集的所有物理化学、生物物理学和生理学数据集，除了需要表征配体与受体相互作用的PDBbind数据集，因为这超出了本研究的范围（补充表1）。第三组数据集来自量子力学计算。我们在最大的qm9数据集上测试了我们的模型，这是最全面的可访问的量子力学数据集，之前的模型已对其进行了测试和基准测试（补充表2）。

这些数据集中的测量可以是定量的或定性的。通常情况下，我们针对定量测量的数据集构建回归模型，针对定性测量的数据集构建分类模型。此外，我们采用不同的性能指标与之前的基准进行比较。对于回归模型，通常通过MAE（平均绝对误差）、MSE（均方误差）或RMSE（均方根误差）进行评估；对于分类模型，通常通过AUC（ROC曲线下面积）或PRC（精确率-召回率曲线）进行评估。在这里，我们通过ROC评估所有的分类模型，除了在MUV（最大无偏验证）数据集上构建的模型外。在MUV数据集中，每个任务有30个结构不同的活性化合物，每个活性化合物有500个结构相似的非活性化合物（非活性化合物的数量是活性化合物的500倍）。这些数据集还使用PRC进行评估，PRC更适合评估算法在高度不平衡数据集上的性能（40）。预测模型可以是单任务或多任务。对于多任务模型，我们计算每个单独任务的性能指标，并报告它们的平均值。

贝叶斯优化用于超参数搜索

调整超参数是深度神经网络建模中的一个挑战性步骤，特别是对于复杂的网络架构。在这里，我们使用贝叶斯优化（BO）来寻找适当的超参数集合，因为它在面对神经网络架构日益增强的灵活性时，具有高效和大大减少时间消耗的优势。贝叶斯优化搜索模仿了高斯过程模拟的手动搜索方法。贝叶斯优化的直觉是基于过去的结果选择下一个要评估的超参数集合，类似于具有领域专业知识的专家。因此，贝叶斯优化将搜索过程集中在最有前景的超参数集合上。我们在本研究中使用了Python包pyGPGO。对于每个独立的数据集，我们进行了基于BO的新型超参数搜索，同时优化以下六个超参数：k（用于原子嵌入的注意力层数量）、t（用于分子嵌入的注意力层数量）、指纹维度、L2权重衰减、学习率和Dropout率。我们使用Matern32核作为协方差函数，并使用UCB（上置信界）作为收购策略。

早停止

为了避免过拟合并减少训练时间消耗，我们使用了早停止技术。在使用BO搜索超参数时，需要进行训练过程以获得当前超参数集合能达到的最佳性能。在这个训练过程中，我们设置了最大的训练轮数为800轮，如果在训练集上连续10轮轮次中性能指标没有提升，在验证集上连续15轮轮次中也没有提升，训练过程将提前终止。然而，这两个早停止的条件是经验性的，可能会根据数据量和任务的不同而变化。补充图2展示了早停止的理由。基于当前的超参数集合，早停止将在验证集上返回优良的性能指标，这进一步反馈给BO算法，以搜索下一个超参数集合。

训练协议

Attentive FP使用Pytorch框架进行训练，使用Adam优化器进行梯度下降优化。从前面的贝叶斯优化过程中获得的每个任务类别的最佳超参数集合被用来训练最具预测性的模型。对于回归任务和分类任务，我们分别使用MSELoss和CrossEntropyLoss作为损失函数，分别衡量均方误差和交叉熵。所有模型都被训练直到达到早停止的条件，表明性能改善已经趋于收敛。

结果和讨论

概念验证实验与Duvenaud等人基准测试的数据集

分子表示通常通过它们的预测性能来评估。一个良好的分子表示应该能够提取内在且有用的信息，从而提高在各种任务上的预测性能。为了评估Attentive FP的预测性能，我们首先在由Duvenaud等人基准测试的三个不同数据集上进行了测试，这些数据集涵盖了溶解度、疟疾生物活性和光伏效率等分子属性。由于这些数据是定量的，我们使用均方误差（MSE）作为评估指标建立了回归模型，与之前的研究类似，使用BO来搜索每个数据集的超参数，以最小化MSE（详见补充表4）。使用最佳的超参数集合，我们进行了三次独立运行，使用不同的随机种子来训练模型。结果按照其原始报告形式显示，以便进行比较。

表2和补充图4总结了Attentive FP和之前模型的预测性能。Neural FP优于简单的神经网络模型，这些模型以ECFP作为输入特征，这表明了图神经网络在预测任务中的潜力。然而，正如原始论文所描述的那样，Neural FP也存在一些局限性，比如分子图中的信息传播和对立体异构体的区分能力不足。相比之下，Weave和MPNN模型使用边网络在分子中的每对原子之间构建虚拟链接。这种方法有助于检测远程原子之间的隐含相互作用，并且它们的预测性能与Neural FP相比有了显著的提升。为了更好地区分不同原子的影响，MPNN模型引入了门控循环单元（GRU）来控制迭代过程中的信息流动，进一步提高了性能。在我们的工作中，Attentive FP在区分分子时使用了简单的方案来提取分子图中的原子特征和拓扑关系，前提是尽可能简洁。例如，Attentive FP通过在原子特征中添加手性和在键特征中添加立体来区分立体异构体，但删除了部分电荷和环大小等经验性较弱或易于从其他特征中推导出的特征。

更重要的是，引入图注意力机制使我们的模型能够集中于来自邻域的与任务相关的信息，而GRUs和状态更新函数在迭代过程中有助于过滤掉不相关的信息。所有这些网络架构设计共同促成了Attentive FP在这些数据集上达到的最先进的预测性能。

预测不同生物活性和性质用于药物发现

尽管Attentive FP在Duvenaud等人的三个基准数据集上表现出色，但药物发现中还存在许多更具挑战性的分子机器学习任务。这些任务包括（但不限于）生物活性、物理化学和量子力学性质。在本节中，我们总结了Attentive FP在涵盖多种分子性质和生物活性的数据集上的预测结果。如前所建议，我们对HIV、BACE和BBBP等数据集进行了分子骨架分割后的评估，其余数据集则进行了随机分割，训练：验证：测试的比例为8:1:1。如上所述，对每个数据集使用BO进行超参数搜索。使用最佳的超参数集合，我们进行了三次独立运行，使用不同的随机种子来训练模型，并根据其原始报告形式显示结果以进行比较（详见补充表6）。

水溶性、溶剂化自由能和亲脂性等物理化学性质极大地影响药物的药代动力学特性，如其在人体内的吸收和分布。理想的物理化学性质是成功药物的前提，通过高精度的计算快速预测这些性质可以显著降低药物开发的实验成本。如表3所示，Attentive FP在所有先前基准测试的物理化学数据集（包括水溶性（ESOL）、溶剂化自由能（FreeSolv）和亲脂性（Lipop））上均达到了最低的RMSE。

这里总结的生物活性数据描述了化合物对不同药物发现关键靶标的直接或间接影响。大量这类数据已在公共领域积累，因此从这些数据中学习提供了一种成本效益的方式来进行药物候选筛选。表3还展示了Attentive FP在生物物理学数据集（MUV、HIV、BACE）上分类模型的预测性能。Attentive FP在ROC指标上也显示出显著的改进。

物理化学性质和生物物理学生物活性只表明小分子对生物体产生影响的可能性有多大，而生理学和毒理学数据集则表示分子在生物体内的效应，如血脑屏障渗透性（BBBP）、不良反应（SIDER）或毒性（Tox21、Toxcast、ClinTox）。Attentive FP模型在BBBP、SIDER、Tox21、Toxcast和ClinTox数据集上超过了以往的模型，唯一的例外是SIDER，随机森林模型在该数据集上的性能略高。

总体而言，Attentive FP在12个与药物发现相关的数据集中的10个上实现了新的最先进性能，表明它是一个有前景的用于药物发现问题的分子表示方案。

表4中星号标记的模型数值取自原始论文，并可在Deepchem中复现。最佳值用粗体突出显示。数据集随机分成训练、验证和测试集，分别占整个数据集的80%、10%和10%（训练大小约为104k）。样本的MAD（平均绝对偏差）也可以解释为通过直接从样本的平均值预测得到的MAE。这里的U0指的是内能，而不是许多论文所引用的原子化能。

此外，使用机器学习方法拟合量子化学计算引起了广泛关注，因为使用DFT方法时会涉及巨大的计算成本。我们在由MoleculeNet基准测试的qm9量子机械数据集上测试了Attentive FP，该数据集包括134k个最多含九个重原子（C、O、N和F）的稳定小有机分子的12个计算的量子性质。如表4所示，我们基于图的Attentive FP分子表示方案在qm9数据集的12项任务中有10项超越其他模型。DTNN在任务R2（电子空间范围）和任务mu（偶极矩的范数）上表现最好。需要注意的是，这些测试结果非常鼓舞人心，因为Attentive FP的整体表现与基于几何的模型相当，表明Attentive FP隐含地学习了与3D构象相关的信息。因此，Attentive FP的分子表示可能为解决涉及大分子构象空间探索的问题提供了有价值的方法。（详见补充表5）。

特征可视化和解释

使用Attentive FP模型在各种测试中达到了最先进的性能，因此值得探讨其可解释性问题。可解释性之所以重要，主要有两个原因：(1) 首先，深度学习模型的“黑箱”性质使得将机器学习到的内容（网络连接权重）高效地映射到科学领域知识上变得非常困难；(2) 其次，深度学习模型可能揭示隐藏在数据下的有趣模式，这些模式可能与现有的化学观察和直觉相似或不同。

学习水溶性

首先，我们旨在探讨为什么Attentive FP在与使用传统化学描述符作为输入的先前模型相比，能取得优越的性能。因此，我们比较了自动学习到的隐藏特征（“指纹”）与手工制作的化学描述符。具体来说，溶解度预测的学习特征是一个200维的嵌入（向量），每个维度都有其自身的化学含义。这里，我们计算了每个特征维度与化学描述符之间的皮尔逊相关系数，例如SA（合成可达性）得分或药物相似性。图2a显示，训练前后相关性分布没有显著变化，暗示这些化学描述符与水溶性只有弱相关性。相比之下，TPSA（拓扑极性表面积）和LogP（亲脂性）的相关性分布在训练后倾向于极端值（图2b），表明TPSA和LogP与水溶性高度相关。我们可以清楚地观察到，学习到的特征中越来越多的特征与TPSA高度正相关或与LogP高度负相关，这符合化学直觉，即TPSA与水溶性正相关，LogP与水溶性负相关。注释中，与TPSA和LogP相关性最高的隐藏特征的皮尔逊r值分别为0.95和-0.911。

学习隐藏环境

除了分子级的学习特征外，每个原子在每个隐藏层中都有其自己的状态向量用于节点嵌入。为了研究原子状态向量在学习过程中如何演变，我们通过计算这些状态向量的皮尔逊相关系数来获得原子对之间的相似系数。然后，我们绘制了化合物的原子相似矩阵的热图以观察模式变化。以异菌脲的分子结构为例（图3），在训练前，相似矩阵热图中的视觉模式在不同层中显示出相似的混乱水平。然而，训练后，高阶层在特定顺序上显示出明显的模式。放大层2的热图，我们发现异菌脲中的原子被清楚地分成了三组——一个异丙基组（原子0-2）、一个二氧亚氨基咪唑啉-甲酰胺连接（原子3-12，用粉色突出显示）和一个二氯苯基组（原子13-20）——这与我们对异菌脲结构的化学直觉非常一致。此外，这种模式清楚地表明Attentive FP已经学习到了与分子溶解度相关的表示。例如，异丙基和二氯苯基组都是疏水性且低极性的，这两个部分的原子之间的相关性往往是正的。相反，它们与二氧亚氨基咪唑啉-甲酰胺组（灵活且极性部分）之间的相关性则较低且为负。另一个有趣的发现是，N3原子与O11原子的相关性（皮尔逊r ≈ 0.9）高于其邻近的N6原子（皮尔逊r ≈ 0.7）。这一结果是反直觉的，因为从图表示的角度来看，两个具有相似节点特征且在拓扑上彼此接近的节点（即此情况下的N3和N6）在“嵌入”的隐藏空间中也应具有较高的相似性。回顾异菌脲的化学结构，我们推测N3和O11之间的高相关性（它们没有相似的化学环境）可能代表这两个原子之间存在分子内氢键的存在。显然，分子内氢键的形成已被证明直接有助于溶解度。这一观察结果表明，Attentive FP确实通过特定任务的学习成功提取了相关信息，同时也突出说明了这里引入的注意力机制在捕捉原子之间的非局部效应方面的优势。（更多例子，见补充图2）。

芳香性学习

为了进一步探索Attentive FP如何学习化学结构中的非局部效应，我们设计了一个任务来预测分子中芳香原子的数量，这与Matlock等人的研究48略有不同。后者在一系列监督任务下学习芳香性和共轭系统。我们的设置在机器智能的角度来看更具挑战性，因为它仅由每个分子的一个整数监督。我们从PubChem BioAssay数据集中抽取了3945个具有0-40个芳香原子的分子进行此分析。在分子特征化过程中，排除了所有键特征和所有原子芳香特征，以消除任何芳香性的先验知识；即特征化过程仅为每个原子生成38位，而不为键生成位。

我们还在同一学习任务中将Attentive FP与Deepchem 1.3.149中实现的GCN和MPNN进行了比较。正如图4所示，Attentive FP优于GCN和MPNN，取得了更小的RMSE和更高的R²值。更有趣的是，Attentive FP模型精确地为芳香原子分配了高注意力权重，而为非芳香原子分配了低注意力权重，并且这种分配对分子的对抗性修改具有鲁棒性。正如图4c所示，一个破坏共轭π系统的小键或原子变化可以被准确识别。这些观察结果表明，Attentive FP在原子层级的注意力权重确实具有化学意义，在这种情况下可以轻松解释为芳香性属性。对于更复杂的问题，注意力权重也可以作为发现新知识的提示。