放牧代码和思想
专注自然语言处理、机器学习算法
    愛しさ 優しさ すべて投げ出してもいい

hankcs的文章

第27页
最长公共子串、最长公共子序列的Java实现与NLP应用
算法

最长公共子串、最长公共子序列的Java实现与NLP应用

阅读(11941)评论(1)

前言 以前HanLP使用“最短编辑距离”来做推荐器,效果有待提高,主要缺点是根据拼音序列的编辑距离推荐的时候,同音字交错很常见,而编辑距离却不那么大。这时我就在寻求一种补充的评分算法,去评判两个句子在拼音这一维度上的相似程度。 最终决定导入...

编译rfc5766-turn-server搭建turn服务器
网络

编译rfc5766-turn-server搭建turn服务器

阅读(15190)评论(1)

rfc5766-turn-server是谷歌推荐的turn开源项目,经常作WebRTC的服务器端使用。 编译环境搭建 vagran t Windows用户要想在Windows下编译rfc5766-turn-server的话,需安装虚拟机,我...

Aho-Corasick算法的Java实现与分析
算法

Aho-Corasick算法的Java实现与分析

阅读(19965)评论(5)

简介 Aho-Corasick算法简称AC算法,通过将模式串预处理为确定有限状态自动机,扫描文本一遍就能结束。其复杂度为O(n),即与模式串的数量和长度无关。 思想 自动机按照文本字符顺序,接受字符,并发生状态转移。这些状态缓存了“按照字符...

POJ 3411 Paid Roads 题解 《挑战程序设计竞赛》
算法

POJ 3411 Paid Roads 题解 《挑战程序设计竞赛》

阅读(5060)评论(0)

POJ 3411 Paid Roads 开路:N个城市间有m条单向路,分别从a到b,可以在c处交P路费,也可以直接交R路费。那么问题来了,你的挖掘机怎么开最省钱? 3.4熟练掌握动态规划 状态压缩DP 乍一看可以Dijkstra,实际上的确...

纯脚本编译WebRTC For Android
网络

纯脚本编译WebRTC For Android

阅读(12392)评论(1)

在WebRTC的范例工程中,有一个Android项目叫AppRTCDemo,可以实现广域网上的视频通话(VoIP)。这篇文章旨在演示AppRTCDemo的编译,平台以Windows为例,但同样适用于Mac和Linux。 切换到Linux环境...

在Windows下编译WebRTC
网络

在Windows下编译WebRTC

阅读(15521)评论(3)

前言 这篇文章的目的在于为你节省生命中宝贵的10小时(甚至更多),或者浪费你10分钟。作为Google更新频繁的大型跨平台基础库,WebRTC的编译一直被人称为噩梦。如果恰巧你偏要在Windows下编译WebRTC,那么你最好提前对自己的耐...

Lucene分类统计示例
Java

Lucene分类统计示例

阅读(10122)评论(0)

需求 在检索系统中,遇到了分组统计(Grouping/GroupBy)的需求,比如将搜索结果按照栏目分类,统计每个栏目下各有多少条结果。以前的做法很愚蠢,先发起一次search统计出有多少组,然后在每个组里发起一次search;这样在有N组...

我的作品

HanLP自然语言处理包《自然语言处理入门》