放牧代码和思想
专注自然语言处理、机器学习算法
    正处于一个非常忙的阶段,抱歉不会经常回应任何联络

2016年06月的文章

基于信息熵和互信息的新词识别
自然语言处理

基于信息熵和互信息的新词识别

hankcs阅读(1483)评论(11)

本文是《基于互信息和左右信息熵的短语提取识别》的姊妹篇,文如其名,没什么新意。 谈起“新词识别”“新词发现”,有许多论文慷慨陈词:要设计丰富的特征模板、建立训练语料库、引入CRF、ME、SVM、神经网络等模型并综合起来、在某某的基础上加入某...

我的开源项目

HanLP自然语言处理包基于DoubleArrayTrie的Aho Corasick自动机