放牧代码和思想
专注自然语言处理、机器学习算法
    恕不接待索要源码语料者、索求技术方案者、以及不Google的懒人。

语料库

汉语树库

汉语树库

hankcs阅读(6206)评论(14)

本文旨在介绍CoNLL格式的中文依存语料库(汉语依存树库)、CoNLL格式相关工具,以及提供两个公开的中文依存语料库下载。 最近做完了分词、词性标注、命名实体识别、关键词提取、自动摘要、拼音、简繁转换、文本推荐,感觉HanLP初具雏形。现在...

千万级巨型汉语词库分享

千万级巨型汉语词库分享

hankcs阅读(10996)评论(21)

算法+语料≈NLP 这是一个六千万词汇量的分类词库,做HanLP这么久,我逐渐体会到,算法无法解决所有问题,词库也非常重要。通常一个算法可以解决80%的问题,剩下的20%无论怎么调节优化,都是拆东墙补西墙。比如上次我提到的“区人保”被HMM...

几个开源分词系统所使用标注集的来源

几个开源分词系统所使用标注集的来源

hankcs阅读(5847)评论(2)

HanLP开源分词系统 支持中文分词(N-最短路分词、CRF分词、索引分词、用户自定义词典、词性标注),命名实体识别(中国人名、音译人名、日本人名、地名、实体机构名识别),关键词提取,自动摘要,短语提取,拼音转换,简繁转换,文本推荐,依存句...

Python正则表达式处理中文语料库

Python正则表达式处理中文语料库

hankcs阅读(3828)评论(3)

Python正则表达式处理中文文本文件一要注意编码,二要注意贪婪匹配模式。 以广为流传的人民日报分词语料为例: 人民网/nz 1月1日/t 讯/ng 据/p 《/w [纽约/nsf 时报/n]/nz 》/w 报道/v ,/w 美国/nsf ...

我的开源项目

HanLP自然语言处理包基于DoubleArrayTrie的Aho Corasick自动机