自然语言处理

第8页

Aho Corasick自动机结合DoubleArrayTrie极速多模式匹配

2014-12-23阅读(34232)评论(32)

本文使用Double Array Trie实现了一个性能极高的Aho Corasick自动机，应用于分词可以取得1400万字每秒，约合27MB/s的分词速度。其中词典为150万词，构建耗时1801 ms。以前就在构想将AC自动机与双数组Tr...

基于CRF序列标注的中文依存句法分析器的Java实现

2014-12-12阅读(14241)评论(8)

这是一个基于CRF的中文依存句法分析器，内部CRF模型的特征函数采用双数组Trie树(DoubleArrayTrie)储存，解码采用特化的维特比后向算法。相较于《最大熵依存句法分析器的实现》，分析速度翻了一倍，达到了1262.8...

CRF分词的纯Java实现

2014-12-10阅读(20545)评论(20)

与基于隐马尔可夫模型的最短路径分词、N-最短路径分词相比，基于条件随机场（CRF）的分词对未登录词有更好的支持。本文（HanLP）使用纯Java实现CRF模型的读取与维特比后向解码，内部特征函数采用双数组Trie树(Double...

CRF++模型格式说明

2014-12-09阅读(28763)评论(52)

通过追加-t, –textmodel参数可以输出文本格式的CRF模型文件，通过该模型文本，可以加深对条件随机场的理解或为其他应用所利用。本文旨在介绍CRF++的文本模型格式，具体读取与解码将集成到HanLP中一并开源。训练语...

最大熵依存句法分析器的实现

2014-11-26阅读(14194)评论(7)

这是一个判决式汉语句法分析器的Java实现，基于最大熵模型和最大生成树模型，实现了中文依存句法的自动分析，分析速度达到 570.7句/秒。开源项目本文代码已集成到HanLP中开源：http://www.hankcs.com/n...

最大熵的Java实现

2014-11-23阅读(12310)评论(12)

这是一个最大熵的简明Java实现，提供训练与预测接口。训练采用GIS训练算法，附带示例训练集。本文旨在介绍最大熵的原理、分类和实现，不涉及公式推导或其他训练算法，请放心食用。最大熵理论简介最大熵属于辨识模型,能够满足所有已知的约束, ...

依存句法分析器的简单实现

2014-11-21阅读(16514)评论(22)

早期博文含有大量错误，见谅。关于最大生成树句法分析器，请参考 Non-projective Dependency Parsing using Spanning Tree Algorithms 生成式句法分析指的是，生成一系列依存句法树，从它...

汉语树库

2014-11-19阅读(25633)评论(14)

本文旨在介绍CoNLL格式的中文依存语料库（汉语依存树库）、CoNLL格式相关工具，以及提供两个公开的中文依存语料库下载。最近做完了分词、词性标注、命名实体识别、关键词提取、自动摘要、拼音、简繁转换、文本推荐，感觉HanLP初具雏形。现在...

词性标注

2014-11-19阅读(51835)评论(51)

词性标注（Part-of-Speech tagging 或POS tagging)，又称词类标注或者简称标注，是指为分词结果中的每个单词标注一个正确的词性的程序，也即确定每个词是名词、动词、形容词或其他词性的过程。在汉语中，词性标注比较简单...

层叠HMM-Viterbi角色标注模型下的机构名识别

2014-11-18阅读(16532)评论(25)

命名实体识别中最难的部分当属实体机构名了，这是因为机构名的组成成分十分复杂，可以是人名、地名、序数词、企业字号甚至是上级机构名。本文介绍一种基于角色标注的层叠HMM模型下中文机构名识别方法。目前代码已整合到HanLP中，即将开源。开源项目...

上一页
1
···
5
6
7
8
9
10
11
下一页
共 11 页

自然语言处理第8页

自然语言处理

Aho Corasick自动机结合DoubleArrayTrie极速多模式匹配

基于CRF序列标注的中文依存句法分析器的Java实现

CRF分词的纯Java实现

CRF++模型格式说明

最大熵依存句法分析器的实现

最大熵的Java实现

依存句法分析器的简单实现

汉语树库

词性标注

层叠HMM-Viterbi角色标注模型下的机构名识别

我的作品

自然语言处理 第8页

自然语言处理

我的作品

自然语言处理第8页