放牧代码和思想
专注自然语言处理、机器学习算法
    愛しさ 優しさ すべて投げ出してもいい

标签:中文分词

Python调用自然语言处理包HanLP
自然语言处理

Python调用自然语言处理包HanLP

阅读(16013)

如果你是能力不足的小白,请直接使用傻瓜安装包。 能力达标的话,一句话安装pyhanlp,全自动下载安装配置,还支持升级。 pip install pyhanlp 调用方法参考项目主页:https://github.com...

全文检索Solr集成HanLP中文分词
中文分词

全文检索Solr集成HanLP中文分词

阅读(11309)

以前发布过HanLP的Lucene插件,后来很多人跟我说其实Solr更流行(反正我是觉得既然Solr是Lucene的子项目,那么稍微改改配置就能支持Solr),于是就抽空做了个Solr插件出来,开源在Github上,欢迎改进。 HanLP中...

HanLP自然语言处理包开源
自然语言处理

HanLP自然语言处理包开源

阅读(62078)

中文分词≠自然语言处理! 中文分词只是第一步;HanLP从中文分词开始,覆盖词性标注、命名实体识别、句法分析、文本分类等常用任务,提供了丰富的API。 不同于一些简陋的分词类库,HanLP精心优化了内部数据结构和IO接口,做到了毫秒级的冷启...

CRF分词的纯Java实现
中文分词

CRF分词的纯Java实现

阅读(18365)评论(20)

与基于隐马尔可夫模型的最短路径分词、N-最短路径分词相比,基于条件随机场(CRF)的分词对未登录词有更好的支持。本文(HanLP)使用纯Java实现CRF模型的读取与维特比后向解码,内部特征函数采用 双数组Trie树(Double...

CRF++模型格式说明
自然语言处理

CRF++模型格式说明

阅读(25376)评论(52)

通过追加-t, –textmodel参数可以输出文本格式的CRF模型文件,通过该模型文本,可以加深对条件随机场的理解或为其他应用所利用。本文旨在介绍CRF++的文本模型格式,具体读取与解码将集成到HanLP中一并开源。 训练 语...

词性标注
中文分词

词性标注

阅读(43217)评论(51)

词性标注(Part-of-Speech tagging 或POS tagging),又称词类标注或者简称标注,是指为分词结果中的每个单词标注一个正确的词性的程序,也即确定每个词是名词、动词、形容词或其他词性的过程。在汉语中,词性标注比较简单...

层叠HMM-Viterbi角色标注模型下的机构名识别
命名实体识别

层叠HMM-Viterbi角色标注模型下的机构名识别

阅读(14463)评论(25)

命名实体识别中最难的部分当属实体机构名了,这是因为机构名的组成成分十分复杂,可以是人名、地名、序数词、企业字号甚至是上级机构名。本文介绍一种基于角色标注的层叠HMM模型下中文机构名识别方法。目前代码已整合到HanLP中,即将开源。 开源项目...

实战HMM-Viterbi角色标注地名识别
命名实体识别

实战HMM-Viterbi角色标注地名识别

阅读(16994)评论(17)

命名实体识别(Named Entity Recognition)也是自然语言处理中的一个难关,特别是中文这样没有大小写等固定形态的语言。上次介绍过《实战HMM-Viterbi角色标注中国人名识别》,这次基于类似的原理,为HanLP实现中文地...

我的作品

HanLP自然语言处理包《自然语言处理入门》