放牧代码和思想
专注自然语言处理、机器学习算法
    Why join the Navy if you can be a pirate?

标签:中文分词

全文检索Solr集成HanLP中文分词
中文分词

全文检索Solr集成HanLP中文分词

hankcs阅读(3751)

以前发布过HanLP的Lucene插件,后来很多人跟我说其实Solr更流行(反正我是觉得既然Solr是Lucene的子项目,那么稍微改改配置就能支持Solr),于是就抽空做了个Solr插件出来,开源在Github上,欢迎改进。 HanLP中...

HanLP自然语言处理包开源
自然语言处理

HanLP自然语言处理包开源

hankcs阅读(28763)

HanLP的初始版本于2014年初开发,原本是一个搜索项目期间的业余作品,在部分NLP开发者群中发布以后,得到了不少开发人员的鼓舞,包括上海林原公司的刘祥春先生也鼓励我把这个项目开源,随即我对HanLP项目做了进一步的完善,2015年3月H...

CRF分词的纯Java实现
中文分词

CRF分词的纯Java实现

hankcs阅读(9345)评论(17)

与基于隐马尔可夫模型的最短路径分词、N-最短路径分词相比,基于条件随机场(CRF)的分词对未登录词有更好的支持。本文(HanLP)使用纯Java实现CRF模型的读取与维特比后向解码,内部特征函数采用 双数组Trie树(Double...

CRF++模型格式说明
自然语言处理

CRF++模型格式说明

hankcs阅读(9933)评论(48)

通过追加-t, –textmodel参数可以输出文本格式的CRF模型文件,通过该模型文本,可以加深对条件随机场的理解或为其他应用所利用。本文旨在介绍CRF++的文本模型格式,具体读取与解码将集成到HanLP中一并开源。 训练 语...

词性标注
中文分词

词性标注

hankcs阅读(10399)评论(39)

词性标注(Part-of-Speech tagging 或POS tagging),又称词类标注或者简称标注,是指为分词结果中的每个单词标注一个正确的词性的程序,也即确定每个词是名词、动词、形容词或其他词性的过程。在汉语中,词性标注比较简单...

层叠HMM-Viterbi角色标注模型下的机构名识别
命名实体识别

层叠HMM-Viterbi角色标注模型下的机构名识别

hankcs阅读(5134)评论(18)

命名实体识别中最难的部分当属实体机构名了,这是因为机构名的组成成分十分复杂,可以是人名、地名、序数词、企业字号甚至是上级机构名。本文介绍一种基于角色标注的层叠HMM模型下中文机构名识别方法。目前代码已整合到HanLP中,即将开源。 开源项目...

实战HMM-Viterbi角色标注地名识别
命名实体识别

实战HMM-Viterbi角色标注地名识别

hankcs阅读(5667)评论(16)

命名实体识别(Named Entity Recognition)也是自然语言处理中的一个难关,特别是中文这样没有大小写等固定形态的语言。上次介绍过《实战HMM-Viterbi角色标注中国人名识别》,这次基于类似的原理,为HanLP实现中文地...

层叠隐马模型下的音译人名和日本人名识别
命名实体识别

层叠隐马模型下的音译人名和日本人名识别

hankcs阅读(3826)评论(6)

命名实体中的人名识别包括中国人名,音译人名和日本人名。比如“北川景子参演了林诣彬导演,克里斯·摩根编剧的《速度与激情3》”“林志玲亮相网友:确定不是波多野结衣?”。 以前用三层HMM做过中国人名的识别,取得了满意的效果。这次来实现另外两种人...

我的开源项目

HanLP自然语言处理包基于DoubleArrayTrie的Aho Corasick自动机