标签：中文分词

Python调用自然语言处理包HanLP

2015-11-26阅读(17202)

如果你是能力不足的小白，请直接使用傻瓜安装包。能力达标的话，一句话安装pyhanlp，全自动下载安装配置，还支持升级。 pip install pyhanlp 调用方法参考项目主页：https://github.com...

2015-08-23阅读(12367)

以前发布过HanLP的Lucene插件，后来很多人跟我说其实Solr更流行（反正我是觉得既然Solr是Lucene的子项目，那么稍微改改配置就能支持Solr），于是就抽空做了个Solr插件出来，开源在Github上，欢迎改进。 HanLP中...

2015-05-07阅读(9792)评论(12)

谈起基于Character-Based Generative Model的中文分词方法，普遍的印象是在Bakeoff上的成绩好，对OOV的识别率高。HanLP中实现的CRF分词器其实就是这种原理的分词器，然而CRF分词缺点也是很明显的：一...

2015-03-27阅读(67688)

中文分词≠自然语言处理！中文分词只是第一步；HanLP从中文分词开始，覆盖词性标注、命名实体识别、句法分析、文本分类等常用任务，提供了丰富的API。不同于一些简陋的分词类库，HanLP精心优化了内部数据结构和IO接口，做到了毫秒级的冷启...

2014-12-23阅读(30996)评论(32)

本文使用Double Array Trie实现了一个性能极高的Aho Corasick自动机，应用于分词可以取得1400万字每秒，约合27MB/s的分词速度。其中词典为150万词，构建耗时1801 ms。以前就在构想将AC自动机与双数组Tr...

2014-12-10阅读(19428)评论(20)

与基于隐马尔可夫模型的最短路径分词、N-最短路径分词相比，基于条件随机场（CRF）的分词对未登录词有更好的支持。本文（HanLP）使用纯Java实现CRF模型的读取与维特比后向解码，内部特征函数采用双数组Trie树(Double...

2014-12-09阅读(27067)评论(52)

通过追加-t, –textmodel参数可以输出文本格式的CRF模型文件，通过该模型文本，可以加深对条件随机场的理解或为其他应用所利用。本文旨在介绍CRF++的文本模型格式，具体读取与解码将集成到HanLP中一并开源。训练语...

2014-11-19阅读(48048)评论(51)

词性标注（Part-of-Speech tagging 或POS tagging)，又称词类标注或者简称标注，是指为分词结果中的每个单词标注一个正确的词性的程序，也即确定每个词是名词、动词、形容词或其他词性的过程。在汉语中，词性标注比较简单...

2014-11-18阅读(15516)评论(25)

命名实体识别中最难的部分当属实体机构名了，这是因为机构名的组成成分十分复杂，可以是人名、地名、序数词、企业字号甚至是上级机构名。本文介绍一种基于角色标注的层叠HMM模型下中文机构名识别方法。目前代码已整合到HanLP中，即将开源。开源项目...

2014-11-17阅读(18103)评论(17)

命名实体识别（Named Entity Recognition）也是自然语言处理中的一个难关，特别是中文这样没有大小写等固定形态的语言。上次介绍过《实战HMM-Viterbi角色标注中国人名识别》，这次基于类似的原理，为HanLP实现中文地...