放牧代码和思想
专注自然语言处理、机器学习算法
    恕不接待索要源码语料者、索求技术方案者、以及不Google的懒人。

标签:正则表达式

Python正则表达式处理中文语料库
语料库

Python正则表达式处理中文语料库

hankcs阅读(4300)评论(4)

Python正则表达式处理中文文本文件一要注意编码,二要注意贪婪匹配模式。 以广为流传的人民日报分词语料为例: 人民网/nz 1月1日/t 讯/ng 据/p 《/w [纽约/nsf 时报/n]/nz 》/w 报道/v ,/w 美国/nsf ...

我的开源项目

HanLP自然语言处理包基于DoubleArrayTrie的Aho Corasick自动机