放牧代码和思想
专注自然语言处理、机器学习算法

标签:中文分词

全文检索Solr集成HanLP中文分词
中文分词

全文检索Solr集成HanLP中文分词

hankcs阅读(4419)

以前发布过HanLP的Lucene插件,后来很多人跟我说其实Solr更流行(反正我是觉得既然Solr是Lucene的子项目,那么稍微改改配置就能支持Solr),于是就抽空做了个Solr插件出来,开源在Github上,欢迎改进。 HanLP中...

HanLP自然语言处理包开源
自然语言处理

HanLP自然语言处理包开源

hankcs阅读(31466)

中文分词≠自然语言处理! 中文分词只是第一步;HanLP从中文分词开始,覆盖词性标注、命名实体识别、句法分析、文本分类等常用任务,提供了丰富的API。 不同于一些简陋的分词类库,HanLP精心优化了内部数据结构和IO接口,做到了毫秒级的冷启...

CRF分词的纯Java实现
中文分词

CRF分词的纯Java实现

hankcs阅读(10257)评论(18)

与基于隐马尔可夫模型的最短路径分词、N-最短路径分词相比,基于条件随机场(CRF)的分词对未登录词有更好的支持。本文(HanLP)使用纯Java实现CRF模型的读取与维特比后向解码,内部特征函数采用 双数组Trie树(Double...

CRF++模型格式说明
自然语言处理

CRF++模型格式说明

hankcs阅读(11167)评论(49)

通过追加-t, –textmodel参数可以输出文本格式的CRF模型文件,通过该模型文本,可以加深对条件随机场的理解或为其他应用所利用。本文旨在介绍CRF++的文本模型格式,具体读取与解码将集成到HanLP中一并开源。 训练 语...

词性标注
中文分词

词性标注

hankcs阅读(12198)评论(40)

词性标注(Part-of-Speech tagging 或POS tagging),又称词类标注或者简称标注,是指为分词结果中的每个单词标注一个正确的词性的程序,也即确定每个词是名词、动词、形容词或其他词性的过程。在汉语中,词性标注比较简单...

层叠HMM-Viterbi角色标注模型下的机构名识别
命名实体识别

层叠HMM-Viterbi角色标注模型下的机构名识别

hankcs阅读(5956)评论(20)

命名实体识别中最难的部分当属实体机构名了,这是因为机构名的组成成分十分复杂,可以是人名、地名、序数词、企业字号甚至是上级机构名。本文介绍一种基于角色标注的层叠HMM模型下中文机构名识别方法。目前代码已整合到HanLP中,即将开源。 开源项目...

实战HMM-Viterbi角色标注地名识别
命名实体识别

实战HMM-Viterbi角色标注地名识别

hankcs阅读(6453)评论(17)

命名实体识别(Named Entity Recognition)也是自然语言处理中的一个难关,特别是中文这样没有大小写等固定形态的语言。上次介绍过《实战HMM-Viterbi角色标注中国人名识别》,这次基于类似的原理,为HanLP实现中文地...

我的开源项目

HanLP自然语言处理包基于DoubleArrayTrie的Aho Corasick自动机