放牧代码和思想
专注自然语言处理、机器学习算法
    愛しさ 優しさ すべて投げ出してもいい

中文分词

第2页
N最短路径的Java实现与分词应用

N最短路径的Java实现与分词应用

阅读(14841)评论(20)

前言 今天连查带抄地用Java实现了N最短路径,马上要用到自己的分词器里了。 N最短路径其实就是K最短路径(KSP)的变种,KSP指的是DAG中单源路径中前K条最短的路径。求解KSP的算法有删除算法、改进的删除算法(MS Algorithm...

Bigram分词中的等效词串

Bigram分词中的等效词串

阅读(6926)评论(1)

Bigram语言模型中,分析的是连续两个词的组合概率。问题来了,“1人”和“2人”该怎么操作呢?这两个句子会被当成两种组合“1@人”和“2@人”,如果分别统计共现频次,会导致一个严重的问题,那就是对数词限定太死了,只在1人和2人的情况下能够...

词图的生成

词图的生成

阅读(16527)评论(19)

当分词系统有一份词典的时候,就可以生成词图了。所谓词图,指的是句子中所有词可能构成的图。如果一个词A的下一个词可能是B的话,那么A和B之间具有一条路径E(A,B)。一个词可能有多个后续,同时也可能有多个前驱,它们构成的图我称作词图。 词图的...

我的作品

HanLP自然语言处理包《自然语言处理入门》