放牧代码和思想
专注自然语言处理、机器学习算法
    愛しさ 優しさ すべて投げ出してもいい

2014年11月的文章

第2页
层叠隐马模型下的音译人名和日本人名识别
命名实体识别

层叠隐马模型下的音译人名和日本人名识别

阅读(11756)评论(6)

命名实体中的人名识别包括中国人名,音译人名和日本人名。比如“北川景子参演了林诣彬导演,克里斯·摩根编剧的《速度与激情3》”“林志玲亮相网友:确定不是波多野结衣?”。 以前用三层HMM做过中国人名的识别,取得了满意的效果。这次来实现另外两种人...

实战rfc5766-turn-server和ice4j广域网通讯
网络

实战rfc5766-turn-server和ice4j广域网通讯

阅读(18235)评论(44)

前段时间上手了NAT打洞类库ice4j(ICE框架),当时使用了numb.viagenie.ca的公共STUN服务器。最近又编译了rfc5766-turn-server,于是今天将两者结合起来,一个作为服务端,一个作为Peer端的协议,试验...

WordPress 分页加html后缀伪静态
PHP

WordPress 分页加html后缀伪静态

阅读(14812)评论(10)

问题 当文章有分页的时候,WordPress生成的永久链接是page.html/2的形式,前面一段是文章的$link,后面的数字代表分页$number。那么问题来了,挖掘……不对,从逻辑上讲这到底是个html文件还是一个目录呢? 难看 在....

千万级巨型汉语词库分享
语料库

千万级巨型汉语词库分享

阅读(36062)评论(33)

算法+语料≈NLP 这是一个六千万词汇量的分类词库,做HanLP这么久,我逐渐体会到,算法无法解决所有问题,词库也非常重要。通常一个算法可以解决80%的问题,剩下的20%无论怎么调节优化,都是拆东墙补西墙。比如上次我提到的“区人保”被HMM...

最长公共子串、最长公共子序列的Java实现与NLP应用
算法

最长公共子串、最长公共子序列的Java实现与NLP应用

阅读(11369)评论(1)

前言 以前HanLP使用“最短编辑距离”来做推荐器,效果有待提高,主要缺点是根据拼音序列的编辑距离推荐的时候,同音字交错很常见,而编辑距离却不那么大。这时我就在寻求一种补充的评分算法,去评判两个句子在拼音这一维度上的相似程度。 最终决定导入...

编译rfc5766-turn-server搭建turn服务器
网络

编译rfc5766-turn-server搭建turn服务器

阅读(14641)评论(1)

rfc5766-turn-server是谷歌推荐的turn开源项目,经常作WebRTC的服务器端使用。 编译环境搭建 vagran t Windows用户要想在Windows下编译rfc5766-turn-server的话,需安装虚拟机,我...

我的作品

HanLP自然语言处理包《自然语言处理入门》