放牧代码和思想
专注自然语言处理、机器学习算法
    This thing called love. Know I would've. Thrown it all away. Wouldn't hesitate.

CS224n研究热点6 基于转移的神经网络句法分析的结构化训练

目录

介绍了依存句法分析最近的3次突破性工作。

什么是SyntaxNet

这是谷歌在16年开源的“世界上最精准的开源句法分析器”,它基于TF来做句法分析,现在支持40种语言(不包含简体中文)。

这项工作在Chen & Manning的开山之作、Weiss et al的工作上面做了一些改进:

hankcs.com 2017-06-22 下午3.38.34.png

3项贡献

  1. 利用未标注数据——“Tri-Training”

  2. 神经网络调参

  3. 最上层加了一层:结构化感知机与柱搜索

1 Tri-Training:利用未标注数据

其实就是两个模型分析同一个未标注句子,如果一致,则作为训练样本加入训练集中。利用得到的更大的训练集训练更精准的模型。

hankcs.com 2017-06-22 下午3.44.53.png

2 模型改进

hankcs.com 2017-06-22 下午3.47.37.png

在经典模型上做了如下三个改动:

  1. 加了一个隐藏层

  2. 激活函数(记得是立方函数)改为ReLU

  3. 最上层加了一层感知机

注意上图中感知机的输入来自从前面第一层隐藏层开始的每一层的输出。

3 结构化感知机训练与柱搜索

要解决的问题是:之前转移动作是贪心的决策,无法根据接下来的动作做全局(或较为全局)的决策,也无法撤销错误的决策。

解决办法:考虑接下来的决策,搜索整棵转移树:

hankcs.com 2017-06-22 下午5.19.31.png

具体做法是记录$K$个得分最高的长度为$m$的预测序列:

hankcs.com 2017-06-22 下午5.20.51.png

结论

hankcs.com 2017-06-22 下午5.47.07.png

用上了这3种改进之后,提高了1个百分点,然后SyntaxNet用Global Normalization替换了Local Normalization以解决标记偏置问题,这带来了0.6个百分点的提升。

知识共享许可协议 知识共享署名-非商业性使用-相同方式共享码农场 » CS224n研究热点6 基于转移的神经网络句法分析的结构化训练

评论 欢迎留言

  • 昵称 (必填)
  • 邮箱 (必填)
  • 网址

我的作品

HanLP自然语言处理包《自然语言处理入门》