放牧代码和思想
专注自然语言处理、机器学习算法
    愛しさ 優しさ すべて投げ出してもいい

hankcs的文章

第41页
多说自动摘要与防剽窃代码
PHP

多说自动摘要与防剽窃代码

阅读(7587)评论(3)

多说还算是WordPress上一款不错的社交网络评论框插件,不过它有“剽窃”博主文章的嫌疑。在wp-content/plugins/duoshuo/WordPress.php中有如下“剽窃”代码: 红色方框内的代码直接将整个post的con...

维特比算法在分词中的应用
自然语言处理

维特比算法在分词中的应用

阅读(11657)评论(8)

很久之前写的东西,有不少谬误。维特比算法应该特指定义在栅格网络上的动态规划算法,其在分词中的应用请参考维特比算法。 在维特比算法通俗理解中,记录了我对维特比算法的粗浅理解,这里结合Ansj中文分词的源码,记录一下维特比算法在分词中的应用。 ...

维特比算法通俗理解
算法

维特比算法通俗理解

阅读(17816)评论(5)

维特比算法说白了就是动态规划实现最短路径,只要知道“动态规划可以降低复杂度”这一点就能轻松理解维特比算法 维特比算法是一个特殊但应用最广的动态规划算法,利用动态规划,可以解决任何一个图中的最短路径问题。而维特比算法是针对一个特殊的图——篱笆...

双数组Trie树(DoubleArrayTrie)Java实现
Java

双数组Trie树(DoubleArrayTrie)Java实现

阅读(39374)评论(65)

双数组Trie树(DoubleArrayTrie)是一种空间复杂度低的Trie树,应用于字符区间大的语言(如中文、日文等)分词领域。 双数组Trie (Double-Array Trie)结构由日本人JUN-ICHI AOE于1989年提出...

判断双字节字符
C++

判断双字节字符

阅读(7019)评论(0)

C/C++的基本功了,在看ICTCLAS分词源码的时候偶然看到,写段例子验证一下。 由于ANSI字符有128个, 所以, ANSI字符的bit最高位为0, 当bit最高位为1时, 就表示是个双字节字符了。而char(也即是signed ch...

我的作品

HanLP自然语言处理包《自然语言处理入门》