放牧代码和思想
专注自然语言处理、机器学习算法
    正处于一个非常忙的阶段,抱歉不会经常回应任何联络

中文分词

第2页
Bigram分词中的等效词串

Bigram分词中的等效词串

hankcs阅读(3472)评论(0)

Bigram语言模型中,分析的是连续两个词的组合概率。问题来了,“1人”和“2人”该怎么操作呢?这两个句子会被当成两种组合“1@人”和“2@人”,如果分别统计共现频次,会导致一个严重的问题,那就是对数词限定太死了,只在1人和2人的情况下能够...

词图的生成

词图的生成

hankcs阅读(5668)评论(18)

当分词系统有一份词典的时候,就可以生成词图了。所谓词图,指的是句子中所有词可能构成的图。如果一个词A的下一个词可能是B的话,那么A和B之间具有一条路径E(A,B)。一个词可能有多个后续,同时也可能有多个前驱,它们构成的图我称作词图。 词图的...

我的开源项目

HanLP自然语言处理包基于DoubleArrayTrie的Aho Corasick自动机