论文阅读 ZeroDDI

2025/2/5 PaperReading DrugDiscovery

今天带来一篇 IJCAI 2024 的论文，这篇论文主要工作是提出了一种称为 ZeroDDI 的方法，用于零样本的 DDI 分类任务，论文原文参见 arxiv。

`摘要`

药物-药物相互作用（DDIs）可以导致各种药理变化，这些变化可以被归类到不同的类别，它们被称为 DDI 结果（DDIEs）。最近几年，曾经没有发现的 DDIEs 已经发生，构成一种新的在训练阶段没有标签的 unseen 类别任务，这被正式地称为无样本 DDIE 预测任务（ZS-DDIE）。不过，已有的计算方法不直接用于 ZS-DDIE，因为这其中有两个挑战：获取合适的 DDIE 表征以及处理类别不平衡问题。为了克服这些挑战，我们提出了一种新的用于 ZS-DDIE 任务的方法，它被命名为 ZeroDDI。特别地，我们设计了一个生物语义增强的 DDIE 表征学习模块，它强调关键生物语义并抽取有识别力的分子子结构语义用于 DDIE 表征学习。进一步地，我们提出了一个双模态统一对齐策略来将药物对表征和 DDIE 语义表征统一分布到一个单位球上并进行匹配对齐，这可以减轻分类不平衡问题。更多的实验表明 ZeroDDI 超越了基线并且说明了这是一个在检测 unseen DDIEs 领域具有潜力的工具。

1 介绍

同时服用多个药物会导致药物间相互作用（DDIs），这会产生一系列的药理变化。根据不同的特定影响，大量的 DDIs 会被分为上百个类别，这被称为 DDI 结果（DDIEs），如图1(a)所示。最近几年，研究者将许多注意力放在 DDIE 预测上，亦即将一个 DDI 分类为一个特定的 DDIE，这可以帮助研究者和临床医生探索多重药物影响背后的机理。为了避免混淆，我们在论文中使用术语“药物对”，而不是 DDIs（药物间相互作用，因为无法区分是药物对本身还是指作用后的结果）。

随着进一步地临床发现和治疗药物的发展，DDIEs 的数量在增加，如图1(b)所示。此外，我们注意到 DDIE 包含三个关键概念：作用结果（例如“心动过缓”），“促进”或“抑制”的药理变化，还有两个药物的直接作用（这被反映在句子模式中）。为了简化，我们将它们分别表示为三个属性，也就是 Effect，Sign 以及 Pattern。我们发现带有注解的 DDIEs（seen DDIEs）比所有三种属性的组合的要少，如图1(c)所示，因此我们可以不使用有标签的药物对来推理 unseen DDIEs 的存在。预测 unseen DDIEs 具有更高的实用价值，因为新型的药物对可能来自 unseen DDIEs。我们规范地称药物 unseen DDIEs 的药物对分类任务为零样本 DDIE 预测任务（ZS-DDIE）。

尽管许多 DDIE 预测方法已经提出，但它们忽略了 ZS-DDIE 任务。当没有可训练的实例用于将知识从 seen 迁移到 unseen 的类别时，语义信息（或者辅助信息）就需要被附到每个类别上以构建 seen 和 unseen 类别之间的语义关联。然而，大多数 DDIE 预测方法将 DDIEs 视作标签，或是无序的初始化向量，或是独热编码向量，这样就没有真正的语义了。因此，它们不能用于 ZS-DDIE 任务。一种用于 ZS-DDIE 的直观的解决方案是，从零样本学习（ZSL）分类方法中吸取经验，这种方法是由计算机视觉领域开发的。在 ZSL 领域有一个广泛使用的兼容性框架，它可以通过将所有类别投影到一个相同的语义空间来将知识从 seen 迁移到 unseen 类别，并通过对齐实例和匹配类别的表征来实现 unseen 类别预测。无论如何，将这个框架用于 ZS-DDIE 任务需要解决两个挑战。第一个挑战是获取合适的 DDIE 表征，这就要求构建不同类别之间合理的关联性。举个例子，基于 DDIE 文本描述，在语义空间上具有相同的 Pattern 的 DDIE 表征之间可能比具有相同 Effect 的表征更加接近（见附文A），这与生物学意义不一致并会阻碍预测表现。第二个挑战是类别不平衡。研究者们揭示了频率最高的三个 DDIEs 包含了超过一半的实例，而大量的 DDIEs 只有少于 10 个实例。类别不平衡问题可能会导致分类界限模糊，使得预测几乎没有实例的类别的分辨能力下降。

在这个工作中，我们提出了一个新的方法，称为 ZeroDDI，用于零样本 DDIE 预测以及解决上述挑战。对于一个挑战，我们设计一个生物学语义增强的 DDIE 表征学习模块（BRL）来获得合适的 DDIE 表征。鉴于 Effect 属性是关键的生物学语义，BRL 首先提取 Effect 的属性级语义以及 DDIE 文本描述的类别级语义。然后，考虑分子子结构在药物性质中扮演了重要角色，BRL 会建立子结构和文本的语义 token 之间的细粒度的作用，以指导两种级别语义的融合，这样可以抽取出具有分辨力的语义用于学习 DDIE 表征。对于第二个挑战，我们设计了一个双模态统一对齐策略（DUA）使得药物对（结构模态）和 DDIEs（文本模态）的表征都能够统一地分布到一个单位球上，然后对齐匹配项，这样可以减轻由类别不平衡导致的分类界限模糊的问题，并进一步促进 ZS-DDIE 的表现。

总结一下，这篇论文的主要贡献描述如下：

我们考察了 DDIE 预测中的一个新问题：零样本 DDIE 预测（ZS-DDIE），并提出了一个新方法 ZeroDDI 用于 ZS-DDIE 任务，以及一个 ZS-DDIE 数据集。
我们设计了一个新的生物语义增强的 DDIE 表征学习模块（BRL），它提取了类别级和属性级的语义，使用子结构引导两个层级语义的融合，以学习具有不同类别之间合理联系的合适的 DDIE 表征。
我们引入了一个双模态统一对齐策略（DUA）来使得结构和文本模态表征（亦即药物对和 DDIE 表征）能够统一地被分布到一个单位球上，这样做的目的是为了处理类别不平衡问题，并由此促进模型的分辨能力。
额外的实验表明 ZeroDDI 可以在 ZS-DDIE 任务上达到比基线更高的性能，揭示了 ZeroDDI 是一个在检测 unseen DDIEs 方面具有潜力的工具。

2 相关工作

2.1 药物间相互作用结果预测

已有的 DDIE 预测方法可以被分成三类：基于 DNN 的方法，基于张量分解的方法，还有基于 GNN 的方法。不过，没有一个 DDIE 预测方法是为解决 ZS-DDIE 任务特定设计的。大部分方法不能够用于 ZS-DDIE 任务，因为它们都忽略了编码 DDIE 或是在它们的 DDIE 嵌入中缺少语义强调。我们发现 3DGT-DDI，一种使用预训练模型（SCIBERT）来从文本描述中学习 DDIE 表征的模型，展示出处理 ZS-DDIE 任务的潜在适应能力。即便如此，零样本 DDIE 预测仍然是未知领域，需要我们去探索。更多的相关工作的讨论在附文B中。

2.2 零样本学习

零样本学习（ZSL）方法，从计算机视觉引入而来，通过投影所有的分类到一个共同的语义空间而获得了可迁移性，并使用一个兼容函数促成了 unseen 类别的实例的分类。对于学习到的语义表征，当前的 ZSL 方法依赖三个初始信息源：类别名称，类别属性，还有类别的文本描述。基于单词的方法通过类别的简单单词表示分类。基于属性的方法通过类别之间更精确的共享特征来表示分类。基于文本描述的方法通过类别的文本描述来表示分类，这可以提供更多的有关类别的上下文信息。为了构建兼容函数，ZSL 方法使用/开发不同的评估函数来拉近实例与匹配的类别，推远其他不匹配的类别。举例来说，DUET 使用交叉熵损失来是实例拥有最高的适配得分；DeViSE 使用秩损失通过一个边界来将匹配的药物对和不匹配的药物对拉远。

在ZS-DDIE 任务中，尽管文本描述包含更多的上下文信息，但关键的语义却没有被强调，因此我们添加 Effect 属性语义来增强生物学语义。另外，收到 CLIP 的启发，我们使用一个对比损失来最大化药物对的相似度和分类匹配的 DDIE。

3 方法论

3.1 前置知识

给定训练数据，其中每个元素包含一个药物对作为实例，还有一个匹配的 DDIE 作为标签，而指示 seen DDIE 标签的集合。令表示 unseen DDIE 表情的集合，这是一个不与相交的集合，也就是说，。我们令作为测试数据，并让作为测试数据 DDIE 标签的集合，。在此处，我们使用两个场景测试模型：一个是，也就是，所有的测试类别都来自 unseen 类别集合，这称之为常规ZSL（CZSL）；另一个是，也就是说，测试集类别会来自 seen 类别集合和 unseen 类别集合，这称为广义ZSL（GZSL）。GZSL 是一种更为真实的场景，模型缺乏关于新实例的类别信息。ZS-DDIE 的目标就是利用 seen 类别的训练数据来学习一个模型，用于预测中每一个实例的标签，这是一个多分类任务。

3.2 概览

ZeroDDI 的结构如图2所示。基于兼容性框架，我们首先获取药物对表征以及来自一个药物编码器（基于 Zhu 等人的研究，细节在附文C中）的药物对分子子结构嵌入。然后我们通过我们设计的 BRL 得到 DDIE 表征。再然后，用 DUA 在一个单位球上对齐药物对表征和它们匹配的 DDIE 表征并训练模型。最后，在预测阶段，DDIE 表征具有药物对最大点积相似得分的 unseen 类别将被预测出来。

3.3 生物语义增强的 DDIE 表征学习（BRL）

为了获取 DDIE 表征，我们设计了一个 BRL 模块，这个模块分为两个步骤：一个是类别级和属性级语义抽取，另一个是子结构引导的两个级别的语义融合（SSF）。前面的步骤从属性级别和类别级别的文本抽取 DDIEs 的两个级别的语义。后面的自适应将两个级别的语义进行融合来获取 DDIE 表征，保留了尽可能多的有分辨力的信息。

类别级别和属性级别语义抽取。 对于类别级的文本，我们抽取 DrugBank 数据库中的 DDIE 文本描述。对于属性级的文本，我们使用 StanfordNLP 工具定位每个 DDIE 文本描述中的 Effect 单词，并从 MeSH 数据库中抽取 Effect 的文本描述。在那之后，我们用一个在大规模生物医药文集上预训练的语言模型 BioBERT，分别从类别级文本和属性级文本来获得 token 特征和，其中和是 token 的数量，表示 token 特征维度。由于属性是一个 DDIE 的一个部分，我们将属性级 token 特征作为额外的 token 信息附加到类别级 token 特征上。正式地，我们可以获得两级的按 token 的的特征

其中和是 MLP 转换，使得 token 特征维度降到。符号“”用于表示拼接。是层归一化，用来将那些来自两级语义的特征归一化。

子结构引导的两级语义融合（SSF）。 不同于直接使用 token 的，我们使用一个跨模态注意力机制来有区别地融合 token，亦即。特别是我们用药物对的分子子结构嵌入（从药物对编码器学习而来）来建立细粒度的与的相互作用，并提取子结构相关的 token 语义，其中是子结构数量。更为特别地，和是由下转换而来：

其中，表示 query，和表示 key 和 value。是可学习的线性转换层。然后跨模态的注意力可以被计算为：

其中。最后，对的所有行求平均，我们就可以得到 DDIE 表征。

3.4 双模态统一对齐（DUA）

我们引入一个 DUA 作为兼容函数，它包括一个对齐函数用于对齐药物对表征及其匹配的 DDIE 表征并以此来分类，还包括一个双模态均匀损失来限制两个模态表征均匀地分布到单位球上。

为了实现药物对分类，我们使用点积来衡量药物对表征和所有 DDIE 语义表征之间的相似度，然后使用对比损失来迫使药物对拥有与其匹配的 DDIE 最高相似度的得分：

其中，表示当前药物对表征，表示匹配的 DDIE 表征，表示关于的所有 DDIE 表征中的第 j 个。是一个温度参数。

为了实现均匀分布，亦即在单位球空间上最大化类别间的表征距离，收到 Lu 等人的启发，我们将所有的 DDIE 表征的中心作为球心。然后我们使用类别均匀损失来将每个 DDIE 表征拉倒单位球上：

其中，，表示所有药物对的 DDIE 表征的中心。意思是从除了第 j 个以外所有的 DDIE 中采样。这个损失函数使用余弦相似度来将每对 DDIE 表征间的距离和中心表征拉向接近相同。因此所有的 DDIE 表征被统一分布到一个单位球上。

为了让药物对表征得到 DDIE 表征的一致限制。我们引入一个实例均匀损失来统一每个药物对到以为中心的球上：

其中是从一批不包含的训练数据中随机绘制的样本。根据式子(5)和式子(6)，双模态均匀损失可以表达为：

3.5 训练和预测

为了训练我们的模型 ZeroDDI，我们将对由式子(4)和式子(7)组成的总损失进行优化：

其中是超参数。

为了零样本 DDIE 预测，我们使用训练的药物对编码器来获得药物对表征。它的 DDIE 可以通过搜索和所有在测试集中的 DDIE 表征之间的最大点积相似度来预测：

其中是一系列测试集的 DDIE，表示由训练的 BRL 学习到的第 j 个 DDIE 表征。

4 实验

4.1 实验设置

数据集

DrugBank 是 DDIE 预测广泛使用的数据源，其中包含药物，DDI，DDIE 的文本描述和药物的分子结构。根据来自 DrugBank v5.1.9 的原始数据，我们通过注释每个 DDI 的属性来构建一个 ZS-DDIE 数据集，其中包含总共 2,004 种认可的药物，394,118 个 DDI，带有独特的文本描述的 175 个 DDIE，带有相应的属性级文本的 2 个 Sign，3 个 Pattern，和 114 个 Effect。我们按从多到少的实例数量的顺序排名 DDIE 的类别，将 DDIE 分成 seen 类别和 unseen 类别，其中我们将较少数量的 DDIE 作为 unseen 类别来模拟新发现的 DDIE 真实情况。包含所有属性的 107 个 DDIE 被视作 seen 类别，其余的 68 个 DDIE 被视为 unseen 类别。此外，每个 DDI 都与此数据集中的 DDIE 关联。数据集中的药物对是不对称的，因为在一个 DDIE 中，药物的作用是不同的。有关数据集的更多详细信息，请参见附录D.1。

基线

正如相关工作中所述，只有一种 DDIE 方法（3DGT-DDI）有可能应用于 ZS-DDIE 任务。此外，在兼容性框架下，我们还比较了计算机视觉中的几个流行兼容性功能，并为它们配备了两种 DDIE 语义表示。一个是从属性的二进制向量（即基于属性的表征）中学习，另一个是从类别的文本描述的 PLM 嵌入（即基于类别的表征）中学习。这些基线具有与我们方法相同的药物对编码器。

3DGT-DDI：它的 DDIE 语义编码器由一个 PLM 和一个 CNN 组成。为了能够让这个模型处理 ZS-DDIE 任务，我们将它的二分类器替换为一个包含交叉熵损失的兼容函数。
ZSLHinge：它使用一个来自经典 ZSL 方法 DeViSE 的铰链度量损失，比起实例和其他从边缘分布随机选择的类别，可以产生一个较高的关于实例和匹配类别之间的点积相似度。
ZSLCE：它使用来自 Chen 和 Sumbul 等人的交叉熵损失，可以最大化实例和它匹配的类别之间的相似度得分。
ZSLTriplet：它使用一个 ZSL 三重损失，可以通过增加一个灵活的语义边界，部分正则化以及关联权重来提升标准三重损失。

更多关于基线的详情可以在附文D.2中找到。

评估方案

实验是在两个常见的零样本学习场景上进行的：CZSL 和 GZSL，这些方案在预备知识中进行了描述。我们使用 seen 类别的数据集来训练模型。在 CZSL 方案中，我们用 3 折的 unseen 类别数据验证和测试模型，即，在每个折叠中，unseen 类别中的三分之一用于验证，其余的则用于测试。在 GZSL 方案中，为了同时评估 seen 和 unseen 的预测性能，将 seen 类别和实例的一部分添加到 GZSL 验证和测试集中。请注意，训练集中不包括验证和测试集中 seen 类的所有实例。

评估标准

在 CZSL 场景下，模型表现使用最高的 k 个精确度测量（k=1,3,5，分别表示为）。此外，我们计算所有 unseen 类别的最高精确度，表示为。在 GZSL 场景中，我们计算 seen 和 unseen 类别上的或（seen 类别对应的精确度表示为或），以及计算它们的调和平均值：。另外，或用于评估 seen-unseen 二分类结果。我们还使用比例来评估在正确的二分类下的多分类任务表现。

鉴于空间限制，实现的细节，超参数意义分析，以及模型配置可以在附文D中找到。

4.2 与基线比较

我们将 ZeroDDI 与 CZSL 和 GZSL 场景中的基线进行比较，结果如表1所示。总的来说，ZeroDDI 在所有 unseen 的指标（即，和）上取得了最佳性能，说明了我们的模型具有应对 unseen 的 DDIE 预测问题的卓越能力。特别是，我们有以下观察结果：（1）与 3DGT-DDI 相比，我们的方法在 ZS-DDIE 任务中具有显著优势，在 CZSL 的 unseen 评估标准上获得了 9.32% 的性能增益，在 GZSL 的上获得了 7.92% 的性能增益。这不仅显示了我们方法在 unseen 上的预测性能，而且还强调了针对 ZS-DDIE 任务的特定定制方法的必要性。（2）比较基于类别和属性的模型的性能，我们在大多数情况下（即ZSLHinge，ZSLCE 和 ZeroDDI），基于类别的表征表现更好。这表明，在 ZS-DDIE 任务中，PLM 学到的基于类别的表征的可传递性可能大于基于属性的使用在类别中共享属性的编码表征。因此我们的 BRL 模块使用 PLM 来构成。（3）ZeroDDI 要比 ZeroDDI 和 ZeroDDI 表现更好，说明了我们设计的在基于类别的表征上强调 Effect 属性和关键生物语义的 BRL 可以结合属性和 DDIE 文本描述的优点用于 unseen DDIE 预测。（4）和 ZSLTriplet 相比，ZeroDDI 也具有有竞争力的优势，反映了我们的 DUA 策略对 unseen 预测有利。

4.3 消融实验

我们进行一项消融研究，以验证 ZeroDDI 中重要组成部分的贡献，即属性级语义，SSF 组件和双模态均匀损失。结果如图3所示。特别地，（1）删除属性级别语义的输入（w/o Attri.）后，性能下降，这表明我们方法提取的属性级语义可以提高用于 ZS-DDIE 任务的模型的性能。我们将在第4.4节中进一步讨论这一点。（2）在移除融合组件 SSF 和对两级 token 特征取平均的操作，模型显示了一个显著的下降，这证明了选择性两级融合的必要性以及分子亚结构在提取歧义信息方面的有效性。（3）移除双模态均匀损失（w/o ）或者这个损失函数的任何一个部分（w/o 或者 w/o ）都会破坏精确度，说明了均匀损失帮助促进分辨能力，和对 ZS-DDI 任务均有效。我们会进一步在第4.5节讨论这个问题。

4.4 生物增强表征学习的有效性

在本节中，我们进一步讨论了 BRL 在 unseen 的 DDIE 预测中的两个组件（属性级语义和 SSF）的有效性。

对于属性级的语义，我们比较了 ZeroDDI 的变体（通过用 SCIBERT 或 PubMedbert 代替 BioBERT，其版本在附文D.3中显示），即是否配备属性级别的语义信息。表2显示，我们的属性级语义可以提供额外的可传递性的增长，无论 PLM 基于哪种，都可以在 unseen 的 DDIE 预测中获得更好的性能。对于 SSF，我们可视化一个示例，以验证 SSF 可以在分子子结构和两级文本 token 之间构建合理的关系。我们从测试集中的 DDIE 的命中项中随机选择两对药物对，然后可视化它们，并在图4中以其最相关的子结构来突出显示一个“高血压”，因为网站报告说“在高血压潜在风险下肾上腺素激动剂的共同给药可能由于麦角衍生物的血管收缩作用而导致心脏输出和血压升高。”在示例中，卡甘酸盐和二氢甲胺是麦角衍生物，SSF 可以突出其麦角衍生物的母体结构的一部分，这证明了 token 与子结构之间构建关系的有效性，并表明 SSF 的潜在解释性。

4.5 双模态均匀分布的有效性

我们进一步讨论了通过将 ZeroDDI 与 ZeroDDI（w/o ）进行比较，在 seen 和 unsenn 的 DDIE 预测中对双模态均匀损失的有效性。为了模拟相对平衡的场景，我们以不平衡比例为 1:100 重建训练集，其中定义为最常见类别中的样本数，除以最不常见的类别（在这里，我们指出最不常见的类别至少有十个实例）。我们分别从测试集的结果中随机选择了 5 个 seen 和 unseen 的 DDIE 类别，并在图5中将其可视化。从结果中，我们有以下观察结果：（1）对于 unseen 的 DDIE 预测，场景从至变化的过程中，准确度下降了，显示出类别不平衡在某种程度上对 unseen 的 DDIE 预测产生了影响，这表明在 unseen 的 DDIE 预测中解决类别不平衡挑战的必要性。（2）类别不平衡会导致 seen 和 unseen 的类别的性能下降，并导致不清楚和不可分割的决策边界，如图5(a) 和 (b) 的右栏所示，而我们的方法可以减轻此问题。这表明可以提高模型的可区分性，并减轻类失衡的不利影响。

4.6 零样本 DDIE 应用分析

在本节中，我们进行了应用分析，以验证这项工作中零样本 DDIE 设置的实在性，并评估 ZeroDDI 的实际功能。首先，我们选择最新的数据集（即 DrugBank v5.1.11）作为新数据集，并将本论文中使用的数据作为现有数据集。通过新数据集的数据过程，我们在新数据集中，发现有 6 个 DDIE 由现有数据集中的属性组成，但不包括在现有数据集中。它不仅证明了新颖的 DDIE 正在增加，而且还证明了新 DDIE 可以由现有属性组成，并进一步表明了我们评估环境的实际意义。然后，我们使用现有数据集训练 ZeroDDI，并使用训练好的模型来预测新数据集中的 6 个新 DDIE。当训练集中没有带标签的实例时，ZeroDDI 也可以在中达到 61.11％，这显示了我们方法的应用能力。更多细节和实验显示在附录E中。

5 结论

这是第一个将注意力放到零样本的 DDIE 预测的工作，并提出一种称为 ZeroDDI 的新方法来预测零样本 DDIE。特别是，我们设计了一种生物学语义增强的 DDIE 表征学习模块，以学习合适的 DDIE 表征，其中包含增强的关键生物学语义和子结构引导的判别语义，从而更好地从 seen 的 DDIE 到 unseen 的 DDIE 的知识迁移。此外，我们设计了一种双模态均匀对齐策略，以在单位球体中统一药物对表征和 DDIE 表征的分布，从而减轻类别失衡问题。广泛的实验表明，ZeroDDI 可以在零样本的 DDIE 预测中产生出色的性能，我们设计的模块可以有效地促进性能，而 ZeroDDIE 是实践应用的有前途的工具。

LOADING

论文阅读 ZeroDDI