
实战HMM-Viterbi角色标注中国人名识别
这几天写完了人名识别模块,与分词放到一起形成了两层隐马模型。虽然在算法或模型上没有什么新意,但是胜在训练语料比较新,对质量把关比较严,实测效果很满意。比如这句真实的新闻“签约仪式前,秦光荣、李纪恒、仇和等一同会见了参加签约的企业家。”,分词...
这几天写完了人名识别模块,与分词放到一起形成了两层隐马模型。虽然在算法或模型上没有什么新意,但是胜在训练语料比较新,对质量把关比较严,实测效果很满意。比如这句真实的新闻“签约仪式前,秦光荣、李纪恒、仇和等一同会见了参加签约的企业家。”,分词...
用Java实现的求解HMM的维特比算法,开源在Git上:https://github.com/hankcs/Viterbi。代码本身没什么新意,看到Git上没有好用的Viterbi的Java实现,所以补个缺。特点是简单好懂,一个方法搞定。调...
内存缓存Memcached可以突破MySQL性能瓶颈,加速博客的访问。 安装Memcached拓展 Memcached是php的一个拓展,类似的拓展还有Memcache。少了一个d的是旧版,多了一个d是新版。新版有更好的性能,推荐安装。 我...
今天一个List大约要放入5万个对象,每个对象是对一篇语料的解析结果。语料库在磁盘里大约有200MB,读入内存后大小未知。当我解析了10000篇的时候,明显感觉速度降了下来,按理说LinkedList插入效率很高,但是换用数组之后一样慢,单...
最近的NLP程序要处理的数据上十万,单线程力不从心。写一个小PlayGround来演示分割任务、多线程同步、合并任务。 目标 假设有12个数,对每个数执行一次加法耗时1秒。现在开4个线程,希望在3秒内完成任务。 &n...
在自然语境中,一个意思可以有多种表现。比如“我喜欢你”“我喜欢隔壁班的你”“你被我偷偷的喜欢着”都表达了“我喜欢你”。搜索引擎如果机械地按照词频算法检索的话,会误解为“我喜欢隔壁班”“你喜欢我”,毕竟词频一样,顺序也差不多。 利用依存关系可...
上次写过《TextRank算法提取关键词的Java实现》,这次用TextRank实现文章的自动摘要。 所谓自动摘要,就是从文章中自动抽取关键句。何谓关键句?人类的理解是能够概括文章中心的句子,机器的理解只能模拟人类的理解,即拟定一个权重的评...
Lucene的Hightlight模块可以高亮搜索结果中的关键字,给搜索引擎自定义界面的自由。 如何创建Highlighter 为了创建一个Highlighter,需要一个Formatter和一个Scorer,如下所示: Highlight...
“如果我赢了,你就是我的人了!” 随着帝国导力网络的普及,黎恩也注册了波波碰账号,天天霸占士官学院终端室与七班同学混战。由于里爷在帝国区服务器里降服大批后宫,勾起了克州拐圣罗伊德强烈的妒意。罗伊德暗中与克洛学长出柜,还拉拢了莎拉教官、冰之少...
初学Cocos2d-x,复刻了碧轨的波波碰游戏,新加入了闪轨的角色。这下可以让两大后宫王尽情PK啦。 最有技巧的是AI的设计,先一个bfs算出所有着陆点的得分,然后根据角色AI的智商挑选得分第几高的着陆点,接着让NPC把波波羊移动到这个点上...