GaAN: 用于大型图与时空图的门控注意力网络

三种类型 Graph Aggregator 的对比

Graph Aggregators

如图依次是 Attention Aggregator、Pooling Aggregator 和 Pairwise Sum Aggregator

比如一个使用多头键值注意力的 Attention Aggregator：

对比同属于 Attention Aggregator 的 GAT：

GaAN 相对一般 Attention Aggregator 的改进在于给各头加权（Gated）：

Attention Aggregator

加权多头：$y(x) = F([x, g_1 h_1, \cdots, g_h h_k])$
$g(x) = \text{sigmoid}(F_1([x, \max(\{F_2(z)| z \in N_x\}), \text{mean}(N_x)]))$

权重 g 因中心节点 x 而异，所以也可以看作一个注意力。
里面后两部分分别为最大池化和平均池化，所以作者文章中说用到了卷积层。

如图是几个不同节点头权重的可视化

头权重

但在 Inductive 的节点分类任务上其实没比别人好多少

inductive

细看一下，甚至比不上一些参数量更少的 Attention-Only 模型

details

作者还提出了一个做交通预测的架构：Graph GRU

对比的另外三个方法没看原文，看这篇文章里应该与 Graph GRU 的原理相似，都是整体一个 RNN，内部再套其它模型：

使用洛杉矶高速路网的数据进行测试，误差表现平平：

Traffic Forecast