放牧代码和思想
专注自然语言处理、机器学习算法
    愛しさ 優しさ すべて投げ出してもいい

2016年06月的文章

基于信息熵和互信息的新词识别
自然语言处理

基于信息熵和互信息的新词识别

阅读(16393)评论(11)

本新词发现模块已经集成到HanLP中开源。 本文是《基于互信息和左右信息熵的短语提取识别》的姊妹篇,文如其名,没什么新意。 谈起“新词识别”“新词发现”,有许多论文慷慨陈词:要设计丰富的特征模板、建立训练语料库、引入CRF、ME、SVM、神...

我的作品

HanLP自然语言处理包《自然语言处理入门》