A Hierarchical Bayesian Language Model based on Pitman-Yor Processes
这篇论文通过把unigram上的Pitman-Yor语言模型拓展到ngram,提出了一种新的平滑方法,同时在理论和试验上证明了有效性。 大部分概率语言模型都是$n$-gram模型,利用每个单词给定的$n-1$个上文单词预测该单词,并估计整个...
这篇论文通过把unigram上的Pitman-Yor语言模型拓展到ngram,提出了一种新的平滑方法,同时在理论和试验上证明了有效性。 大部分概率语言模型都是$n$-gram模型,利用每个单词给定的$n-1$个上文单词预测该单词,并估计整个...
AC自动机中,转移的最小单位是一个字符。也就是说,匹配后只能移动一个字符,复杂度是线性的$O(n)$。然而线性并非最快,Boyer-Moore算法在匹配后可以跳过多个字符,比线性还快。据说在实践中,利用Boyer-Moore优化的AC自动机...