层叠隐马模型下的音译人名和日本人名识别
命名实体中的人名识别包括中国人名,音译人名和日本人名。比如“北川景子参演了林诣彬导演,克里斯·摩根编剧的《速度与激情3》”“林志玲亮相网友:确定不是波多野结衣?”。 以前用三层HMM做过中国人名的识别,取得了满意的效果。这次来实现另外两种人...
命名实体中的人名识别包括中国人名,音译人名和日本人名。比如“北川景子参演了林诣彬导演,克里斯·摩根编剧的《速度与激情3》”“林志玲亮相网友:确定不是波多野结衣?”。 以前用三层HMM做过中国人名的识别,取得了满意的效果。这次来实现另外两种人...
前段时间上手了NAT打洞类库ice4j(ICE框架),当时使用了numb.viagenie.ca的公共STUN服务器。最近又编译了rfc5766-turn-server,于是今天将两者结合起来,一个作为服务端,一个作为Peer端的协议,试验...
问题 当文章有分页的时候,WordPress生成的永久链接是page.html/2的形式,前面一段是文章的$link,后面的数字代表分页$number。那么问题来了,挖掘……不对,从逻辑上讲这到底是个html文件还是一个目录呢? 难看 在....
上外 《日语综合教程》 翻译注解。点击生词后的数字可以跳转到解释,再次点击返回(BackSpace键也可),支持左右键(← →)翻页。 読み物 初日影のなかで  ...
算法+语料≈NLP 这是一个六千万词汇量的分类词库,做HanLP这么久,我逐渐体会到,算法无法解决所有问题,词库也非常重要。通常一个算法可以解决80%的问题,剩下的20%无论怎么调节优化,都是拆东墙补西墙。比如上次我提到的“区人保”被HMM...
前言 以前HanLP使用“最短编辑距离”来做推荐器,效果有待提高,主要缺点是根据拼音序列的编辑距离推荐的时候,同音字交错很常见,而编辑距离却不那么大。这时我就在寻求一种补充的评分算法,去评判两个句子在拼音这一维度上的相似程度。 最终决定导入...
rfc5766-turn-server是谷歌推荐的turn开源项目,经常作WebRTC的服务器端使用。 编译环境搭建 vagran t Windows用户要想在Windows下编译rfc5766-turn-server的话,需安装虚拟机,我...
上外 《日语综合教程》 翻译注解。点击生词后的数字可以跳转到解释,再次点击返回(BackSpace键也可)。最后一页有课文翻译,支持键盘左右键(← →)翻页。 第四課 わたしの夏――1945年・広島 本文 堀場清子 19...
上外 《日语综合教程》 翻译注解。点击生词后的数字可以跳转到解释,再次点击返回(BackSpace键也可)。 読み物 日本のソフトビジネス 土井宏文 最近(さいきん)でこそ、株価(かぶか)[1] の急(きゅう)...
最近HanLP希望支持拼音与繁体功能,所以学习了几个开源的Java实现,优化后集成进来。 开源项目地址:https://github.com/hankcs/HanLP stuxuhai/jpinyin 原理 这是GitHub上星...