放牧代码和思想
专注自然语言处理、机器学习算法
    恕不接待索要源码语料者、索求技术方案者、以及不Google的懒人。

2014年05月的文章

ICTCLAS中的HMM人名识别
中文分词

ICTCLAS中的HMM人名识别

hankcs阅读(5525)评论(1)

本文主要从代码的角度分析标注过程中的细节,理论谁都能说,但没几人能做出一个实用高效的系统。在得出粗分结果之后,需要对其进行人名、翻译人名、地名识别,然后重新KSP得出最终结果,在ICTCLAS中,这些标注都是通过HMM模型实现的。 人名识别...

HMM与分词、词性标注、命名实体识别
自然语言处理

HMM与分词、词性标注、命名实体识别

hankcs阅读(9346)评论(5)

HMM(隐马尔可夫模型)是用来描述隐含未知参数的统计模型,举一个经典的例子:一个东京的朋友每天根据天气{下雨,天晴}决定当天的活动{公园散步,购物,清理房间}中的一种,我每天只能在twitter上看到她发的推“啊,我前天公园散步、昨天购物、...

Java Collection在遍历中删除、合并元素
Java

Java Collection在遍历中删除、合并元素

hankcs阅读(3727)评论(0)

我的分词结果链表需要合并连续的数字和日期,所以需要熟悉一下Java Collection在遍历的过程中同时删除、合并元素的小trick。自己试验了一下,活用listIterator的previous()和next()方法就可以达到目的。 遍...

AOJ 0531 Paint Color 题解 《挑战程序设计竞赛》
算法

AOJ 0531 Paint Color 题解 《挑战程序设计竞赛》

hankcs阅读(2127)评论(2)

AOJ 0531 Paint Color 涂色:(日文题目,自己翻译成了中文)为了宣传信息竞赛,要在长方形的三合板上喷油漆来制作招牌。三合板上不需要涂色的部分预先贴好了护板。被护板隔开的区域要涂上不同的颜色,比如上图就应该涂上5种颜色。 请...

imos-累积和法
算法

imos-累积和法

hankcs阅读(2134)评论(9)

在解AOJ 0531 Paint Color时,学到了一个累积和的妙用——imos法,由于原文是日语,所以特意翻译过来。值得一提的是,作者Kentaro Imajo跟鄙人同龄,却已取得如此多的成就,而鄙人一无所成,实在汗颜。 imos法 i...

N最短路径的Java实现与分词应用
中文分词

N最短路径的Java实现与分词应用

hankcs阅读(5147)评论(17)

前言 今天连查带抄地用Java实现了N最短路径,马上要用到自己的分词器里了。 N最短路径其实就是K最短路径(KSP)的变种,KSP指的是DAG中单源路径中前K条最短的路径。求解KSP的算法有删除算法、改进的删除算法(MS Algorithm...

POJ 3977 Subset 题解 《挑战程序设计竞赛》
算法

POJ 3977 Subset 题解 《挑战程序设计竞赛》

hankcs阅读(2158)评论(0)

POJ 3977 Subset 子集:从N个数中挑出非空子集使得和的绝对值最小。 3.2常用技巧精选(一) 折半枚举 子集最多有(2^N)235个,根本枚举不过来。所以折半先枚举前半,记录和及个数。在枚举后半时,使用二分法查找与相反数最相近...

Bigram分词中的等效词串
中文分词

Bigram分词中的等效词串

hankcs阅读(3169)评论(0)

Bigram语言模型中,分析的是连续两个词的组合概率。问题来了,“1人”和“2人”该怎么操作呢?这两个句子会被当成两种组合“1@人”和“2@人”,如果分别统计共现频次,会导致一个严重的问题,那就是对数词限定太死了,只在1人和2人的情况下能够...

POJ 2674 Linear world 题解 《挑战程序设计竞赛》
算法

POJ 2674 Linear world 题解 《挑战程序设计竞赛》

hankcs阅读(2026)评论(2)

POJ 2674 Linear world 线性世界:一条线上N只蚂蚁,每只蚂蚁速度固定,方向和坐标不同,碰头后掉头,求最后掉下去那只蚂蚁的名字。 3.2常用技巧精选(一) 弹性碰撞 首先想象整个世界只有一只蚂蚁,于是可以计算出爬行时间最长...

我的开源项目

HanLP自然语言处理包基于DoubleArrayTrie的Aho Corasick自动机