放牧代码和思想
专注自然语言处理、机器学习算法

标签:自然语言处理

Trie树分词
Java

Trie树分词

hankcs阅读(5596)评论(20)

最近在看Ansj中文分词的源码,以前没有涉足过这个领域,所以需要做一些笔记。 2015年4月13日更新 经过研究与试验,我觉得trie树分词是一种很落后的技术。 最完美的分词、停用词过滤的技术是Aho Corasick自动机结合Double...

我的开源项目

HanLP自然语言处理包基于DoubleArrayTrie的Aho Corasick自动机