
最长公共子串、最长公共子序列的Java实现与NLP应用
前言 以前HanLP使用“最短编辑距离”来做推荐器,效果有待提高,主要缺点是根据拼音序列的编辑距离推荐的时候,同音字交错很常见,而编辑距离却不那么大。这时我就在寻求一种补充的评分算法,去评判两个句子在拼音这一维度上的相似程度。 最终决定导入...
前言 以前HanLP使用“最短编辑距离”来做推荐器,效果有待提高,主要缺点是根据拼音序列的编辑距离推荐的时候,同音字交错很常见,而编辑距离却不那么大。这时我就在寻求一种补充的评分算法,去评判两个句子在拼音这一维度上的相似程度。 最终决定导入...
rfc5766-turn-server是谷歌推荐的turn开源项目,经常作WebRTC的服务器端使用。 编译环境搭建 vagran t Windows用户要想在Windows下编译rfc5766-turn-server的话,需安装虚拟机,我...
上外 《日语综合教程》 翻译注解。点击生词后的数字可以跳转到解释,再次点击返回(BackSpace键也可)。最后一页有课文翻译,支持键盘左右键(← →)翻页。 第四課 わたしの夏――1945年・広島 本文 堀場清子 19...
上外 《日语综合教程》 翻译注解。点击生词后的数字可以跳转到解释,再次点击返回(BackSpace键也可)。 読み物 日本のソフトビジネス 土井宏文 最近(さいきん)でこそ、株価(かぶか)[1] の急(きゅう)...
最近HanLP希望支持拼音与繁体功能,所以学习了几个开源的Java实现,优化后集成进来。 开源项目地址:https://github.com/hankcs/HanLP stuxuhai/jpinyin 原理 这是GitHub上星...
简介 Aho-Corasick算法简称AC算法,通过将模式串预处理为确定有限状态自动机,扫描文本一遍就能结束。其复杂度为O(n),即与模式串的数量和长度无关。 思想 自动机按照文本字符顺序,接受字符,并发生状态转移。这些状态缓存了“按照字符...
POJ 3411 Paid Roads 开路:N个城市间有m条单向路,分别从a到b,可以在c处交P路费,也可以直接交R路费。那么问题来了,你的挖掘机怎么开最省钱? 3.4熟练掌握动态规划 状态压缩DP 乍一看可以Dijkstra,实际上的确...
在WebRTC的范例工程中,有一个Android项目叫AppRTCDemo,可以实现广域网上的视频通话(VoIP)。这篇文章旨在演示AppRTCDemo的编译,平台以Windows为例,但同样适用于Mac和Linux。 切换到Linux环境...
前言 这篇文章的目的在于为你节省生命中宝贵的10小时(甚至更多),或者浪费你10分钟。作为Google更新频繁的大型跨平台基础库,WebRTC的编译一直被人称为噩梦。如果恰巧你偏要在Windows下编译WebRTC,那么你最好提前对自己的耐...
需求 在检索系统中,遇到了分组统计(Grouping/GroupBy)的需求,比如将搜索结果按照栏目分类,统计每个栏目下各有多少条结果。以前的做法很愚蠢,先发起一次search统计出有多少组,然后在每个组里发起一次search;这样在有N组...