依存句法分析在深度学习中的应用

DCNNs

线性拼接

\label{eq:seq_con}
\widetilde{ \bf x}_{i,j} =    {\bf x}_i \oplus   {\bf x}_{i+1}\oplus \cdots \oplus  {\bf x}_{i+j}

DCNNs (Dependency-based CNN) (Ma et al. (2015))做了2种简单的改进，即基于路径和基于兄弟节点，如下图所示：

GCN

Graph Convolutional Networks

GCN是一种编码图数据的网络结构，给定一张$$n$$个节点的有向图，可以将其表示为邻接矩阵$$\bf A$$，其中$$A_{ij}=1$$表示存在从$$i$$$$j$$的边。在$$L$$层的GCN中，记第$$l$$层节点$$i$$的输入为$$h_i^{(l-1)}$$，输出为$$h_i^{(l)}$$。那么，图卷积操作定义如下： \begin{align} h_i^{(l)} = \sigma\big( \sum_{j=1}^n A_{ij} W^{(l)}{h}_j^{(l-1)} + b^{(l)} \big), \label{eqn:conv} \end{align}

$$A_{ij}$$只在邻接节点处等于$$1$$，所以图卷积实际上是让节点从邻接节点处获取总结性的信息。

soft pruning

其中，$$Q$$$$K$$ 都是上一层的表示 $$\mathbf{h}^{(l-1)}$$。用这些$$\mathbf{\tilde{A}}$$代替$$\mathbf{{A}}$$就可实现soft pruning了。这个机制的效果如下所示：

