放牧代码和思想
专注自然语言处理、机器学习算法

句法分析

Michael Collins NLP公开课任务2 PCFG

Michael Collins NLP公开课任务2 PCFG

hankcs阅读(344)评论(0)

Micheal Collins在Coursera上的自然语言处理公开课,第二次任务。自然语言中的歧义令人忍俊不禁,只要你或者你的模型脑洞足够大。 语料库来自WSJ,但并不是乔姆斯基范式: 因为乔姆斯基范式中一元rule必须是叶子节点,修正方...

基于神经网络的高性能依存句法分析器

基于神经网络的高性能依存句法分析器

hankcs阅读(2814)评论(17)

本文剖析了一个基于神经网络分类模型和arc-standard转移动作的判决式汉语依存句法分析器,其Java实现由我移植自LTP的C++代码,并添加了详细的注释,将内部数据结构由哈希表替换为高速的DoubleArrayTrie,分词和词性标注...

基于CRF序列标注的中文依存句法分析器的Java实现

基于CRF序列标注的中文依存句法分析器的Java实现

hankcs阅读(4650)评论(6)

这是一个基于CRF的中文依存句法分析器,内部CRF模型的特征函数采用 双数组Trie树(DoubleArrayTrie)储存,解码采用特化的维特比后向算法。相较于《最大熵依存句法分析器的实现》,分析速度翻了一倍,达到了1262.8...

最大熵依存句法分析器的实现

最大熵依存句法分析器的实现

hankcs阅读(3501)评论(6)

这是一个判决式汉语句法分析器的Java实现,基于最大熵模型和最大生成树模型,实现了中文依存句法的自动分析,分析速度达到 570.7句/秒。 开源项目 本文代码已集成到HanLP中开源:http://www.hankcs.com/n...

生成式依存句法分析器的简单实现

生成式依存句法分析器的简单实现

hankcs阅读(4289)评论(16)

生成式句法分析指的是,生成一系列依存句法树,从它们中用特定算法挑出概率最大那一棵。句法分析中,生成模型的构建主要使用三类信息:词性信息、词汇信息和结构信息。前二类很好理解,而结构信息需要特殊语法标记,不做考虑。 本文主要利用了词汇+词性生成...

我的开源项目

HanLP自然语言处理包基于DoubleArrayTrie的Aho Corasick自动机