CS224n笔记6 句法分析-码农场

语言学的两种观点
歧义
依附歧义
标注数据集的崛起：Universal Dependencies treebanks
依存文法与依存结构
起源
一些细节
句法分析可用的特征
依存句法分析
Arc-standard transition
MaltParser
传统特征表示
效果评估
投射性
为什么需要神经网络句法分析器
神经网络依存句法分析器
为何需要非线性
未来工作

句法分析还算熟悉，就跟着复习了神经网络句法分析的动机与手法，了解一下比较前沿的动向。

语言学的两种观点

如何描述语法，有两种主流观点，其中一种是短语结构文法，英文术语是：Constituency = phrase structure grammar = context-free grammars (CFGs)。

这种短语语法用固定数量的rule分解句子为短语和单词、分解短语为更短的短语或单词……一个取自WSJ语料库的短语结构树示例：

hankcs.com 2016-12-30 下午1.06.21.png

另一种是依存结构，用单词之间的依存关系来表达语法。如果一个单词修饰另一个单词，则称该单词依赖于另一个单词。一个由HanLP输出的依存句法树如下：

神经网络依存句法分析51.png

歧义

通过句法树可以表达歧义，一个确定的句法树对应句子的一个确定解读，比如对介词短语依附（attachment of prepositional phrases (PPs)）：

hankcs.com 2017-06-12 下午5.08.57.png

from space这个介词短语到底依附谁？不同的答案导致对句子不同的理解。

依附歧义

很难确定如何把一个短语（介词短语、状语短语、分词短语、不定式）依附到其他成分上去，比如下列句子：

hankcs.com 2017-06-12 下午5.18.05.png

每个括号中都是一个短语，它们依附的对象各不相同。对于$n$个短语来讲，组成的树形结构有$C_n=\frac{(2n)!}{(n+1)!n!}$。这是Catalan数，指数级增长，常用于树形结构的计数问题。

标注数据集的崛起：Universal Dependencies treebanks

虽然上下文无关文法中的语法集很容易写，无非是有限数量的规则而已，但人工费时费力标注的树库却茁壮成长了起来。在1993年首次面世的Universal Dependencies treebanks如今在Google的赞助下发布了2.0，其授权大多是署名-相同方式共享，覆盖了全世界绝大多数语言（不包括简体中文）。

其官网是：http://universaldependencies.org/

GitHub主页是：https://github.com/UniversalDependencies

树库示例：

hankcs.com 2017-06-12 下午5.49.15.png

人们偏好树库多于规则的原因是显而易见的，树库虽然标注难度高，但每一份劳动都可被复用（可以用于词性标注命名实体识别等等任务）；而每个人编写的规则都不同，并且死板又丑陋。树库的多用性还是得其作为评测的标杆数据，得到了越来越多的引用。

依存文法与依存结构

这节课以及练习用的都是依存句法树，而不是短语结构树。这并不是随机选择，而是由于前者的优势。90年代的句法分析论文99%都是短语结构树，但后来人们发现依存句法树标注简单，parser准确率高，所以后来（特别是最近十年）基本上就是依存句法树的天下了（至少80%）。

不标注依存弧label的依存句法树就是短语结构树的一种：

hankcs.com 2017-06-12 下午6.10.12.png

一旦标上了，两者就彻底不同了：

hankcs.com 2017-06-12 下午6.10.59.png

这里箭头的尾部是head（被修饰的主题），箭头指向的是dependent（修饰语）。

起源

语法依存的概念可以追溯到公元前4世纪印度语言学家Panini对语义、句法和形态依存的分类研究，但一般认为现代依存语法理论的创立者是法国语言学家Lucien Tesnière（1893—1954）。L.Tesnière的思想主要反映在他1959年出版的《结构句法基础》（Eléments de syntaxe structurale）一书中［Tesnière，1959］。

——《统计自然语言处理》

hankcs.com 2017-06-12 下午6.23.28.png