放牧代码和思想
专注自然语言处理、机器学习算法

句法分析

Deep Biaffine Attention for Neural Dependency Parsing

Deep Biaffine Attention for Neural Dependency Parsing

hankcs阅读(114)评论(0)

这是斯坦福专攻Dependency Parsing的博士生Dozat在ICLR 2017上的论文,拿到了graph-based方法中的最高分,改进版还拿到了CoNLL 2017 Shared Task的第一。 基于图的依存句法分析需要解决两...

宾州树库和CTB的Python预处理脚本

宾州树库和CTB的Python预处理脚本

hankcs阅读(196)评论(3)

在写句法分析器之前,通常需要将PTB和CTB预处理为: 一行一个句子,单文件; 符合规范比例的训练集/开发集/测试集; 去掉CTB中的xml标签,只保留句子,编码转换。 这些步骤很麻烦,因为通常bracketed的树形结构需要先解析才能转为...

CS224n笔记6 句法分析

CS224n笔记6 句法分析

hankcs阅读(692)评论(1)

句法分析还算熟悉,就跟着复习了神经网络句法分析的动机与手法,了解一下比较前沿的动向。 语言学的两种观点 如何描述语法,有两种主流观点,其中一种是短语结构文法,英文术语是:Constituency = phrase structure gra...

Michael Collins NLP公开课任务2 PCFG

Michael Collins NLP公开课任务2 PCFG

hankcs阅读(980)评论(0)

Micheal Collins在Coursera上的自然语言处理公开课,第二次任务。自然语言中的歧义令人忍俊不禁,只要你或者你的模型脑洞足够大。 语料库来自WSJ,但并不是乔姆斯基范式: 因为乔姆斯基范式中一元rule必须是叶子节点,修正方...

基于神经网络的高性能依存句法分析器

基于神经网络的高性能依存句法分析器

hankcs阅读(5046)评论(19)

本文剖析了一个基于神经网络分类模型和arc-standard转移动作的判决式汉语依存句法分析器,其Java实现由我移植自LTP的C++代码,并添加了详细的注释,将内部数据结构由哈希表替换为高速的DoubleArrayTrie,分词和词性标注...

基于CRF序列标注的中文依存句法分析器的Java实现

基于CRF序列标注的中文依存句法分析器的Java实现

hankcs阅读(5917)评论(8)

这是一个基于CRF的中文依存句法分析器,内部CRF模型的特征函数采用 双数组Trie树(DoubleArrayTrie)储存,解码采用特化的维特比后向算法。相较于《最大熵依存句法分析器的实现》,分析速度翻了一倍,达到了1262.8...

最大熵依存句法分析器的实现

最大熵依存句法分析器的实现

hankcs阅读(4686)评论(6)

这是一个判决式汉语句法分析器的Java实现,基于最大熵模型和最大生成树模型,实现了中文依存句法的自动分析,分析速度达到 570.7句/秒。 开源项目 本文代码已集成到HanLP中开源:http://www.hankcs.com/n...

生成式依存句法分析器的简单实现

生成式依存句法分析器的简单实现

hankcs阅读(5741)评论(17)

生成式句法分析指的是,生成一系列依存句法树,从它们中用特定算法挑出概率最大那一棵。句法分析中,生成模型的构建主要使用三类信息:词性信息、词汇信息和结构信息。前二类很好理解,而结构信息需要特殊语法标记,不做考虑。 本文主要利用了词汇+词性生成...

我的开源项目

HanLP自然语言处理包基于DoubleArrayTrie的Aho Corasick自动机