
基于HMM2-Trigram字符序列标注的中文分词器Java实现
谈起基于Character-Based Generative Model的中文分词方法,普遍的印象是在Bakeoff上的成绩好,对OOV的识别率高。HanLP中实现的CRF分词器其实就是这种原理的分词器,然而CRF分词缺点也是很明显的: 一...
谈起基于Character-Based Generative Model的中文分词方法,普遍的印象是在Bakeoff上的成绩好,对OOV的识别率高。HanLP中实现的CRF分词器其实就是这种原理的分词器,然而CRF分词缺点也是很明显的: 一...
POJ 2115 C Looooops 循环次数:求for (variable = A; variable != B; variable += C)的循环次数,其中变量为k比特无符号整数。 4.1更加复杂的数学问题 模运算的世界...
前段时间开源了基于双数组Trie树的Aho Corasick自动机,当时认为在中文分词中,ACDAT应该能秒杀DAT。今天优化了DAT的多模式匹配后,竟然得出了意外的结果。 当初的DAT实现中,为了支持多模式匹配,我写了一个Searcher...
POJ 1284 Primitive Roots 原根个数:满足{ (xi mod p) | 1 <= i <= p-1 } == { 1, …, p-1 }的x称为模p的原根。给出模p,求原根个数。 4....
POJ 1150 The Last Non-zero Digit 超大组合数:求超大组合数P(n, m)的最后一个非零位。 4.1更加复杂的数学问题 模运算的世界 今天过节,管它什么节,对我来说都一样,来刷一题渲染一...
AOJ 2215 Three Silhouettes 三面剪影:给定x,y,z三个面上的投影,求确定的3个多角柱相交部分的体积。 输入格式: nx表示垂直于x轴的平面上的点个数,紧接着是它们的逆时针序的坐标。以此类推,最后3个0表示输入终止...
中文分词≠自然语言处理! 中文分词只是第一步;HanLP从中文分词开始,覆盖词性标注、命名实体识别、句法分析、文本分类等常用任务,提供了丰富的API。 不同于一些简陋的分词类库,HanLP精心优化了内部数据结构和IO接口,做到了毫秒级的冷启...
当初项目文档是用sphinx写的,一套rst下来make html得到一整个漂亮的在线文档。现在想要将文档导出为离线的handbook pdf,于是找到了rst2pdf这个项目,作为sphinx的拓展,然后加上少量配置即可输出中文PDF。 ...
AOJ 2256 Divide the Cake 分蛋糕:长H宽W的长方形上有2n个草莓,求在两个边上任取两点构成直线恰好将草莓平分的概率? 3.6与平面和空间打交道的计算几何 数值积分 开学了,近乡情更怯,好难过,...
POJ 3689 Equations 对偶线性规划:n维参数向量满足两个等式,求另一个参数向量的极大值? 3.6与平面和空间打交道的计算几何 凸包 首先形式化描述该线性规划(线性规划与对偶问题的一般化详见附录): 原...