放牧代码和思想
专注自然语言处理、机器学习算法

Java

第2页
解决ivy is not available

解决ivy is not available

hankcs阅读(2909)评论(1)

今天用Ant编译Lucene时抛出错误: ivy is not available 原来是缺少一个ivy插件,ivy插件是用来智能管理dependency的。项目主页是http://ant.apache.org/ivy/ ,只需将...

Lucene同义词对查询的影响

Lucene同义词对查询的影响

hankcs阅读(2892)评论(1)

在测试一个查询的时候,我发现第二条搜索结果非常令人不满意,竟然是一条毫无关系的结果。仔细查看了Explanation之后,看到了如下情况: 同义词有很多条,这些同义词虽然每一个的得分都不高,但是累积起来就产生了3.3分左右的高分,直接将一条...

Java Collection在遍历中删除、合并元素

Java Collection在遍历中删除、合并元素

hankcs阅读(3302)评论(0)

我的分词结果链表需要合并连续的数字和日期,所以需要熟悉一下Java Collection在遍历的过程中同时删除、合并元素的小trick。自己试验了一下,活用listIterator的previous()和next()方法就可以达到目的。 遍...

Log4j 2配置与IntelliJ IDEA控制台颜色

Log4j 2配置与IntelliJ IDEA控制台颜色

hankcs阅读(7682)评论(5)

准备开一大项目的话,日志系统必不可少。Log4j是Java平台上最好的日志组件了,Log4j 2升级了不少API,拓展性更好。 Log4j 2安装 需要两个Jar即可:log4j-api-2.0-rc1.jar和log4j-core-2.0...

高性能Java科学与技术运算库Colt

高性能Java科学与技术运算库Colt

hankcs阅读(3725)评论(1)

在学习《Machine Learning in Action》和《NLTK Natural Language Processing with Python》的过程中,我真切地感受到Numpy库的便捷与强大,线性代数的数据结构与运算封装得浅显...

IntelliJ IDEA 13.1.1 控制台项目入口

IntelliJ IDEA 13.1.1 控制台项目入口

hankcs阅读(6079)评论(2)

事情是这样的,一个月以前一直在用IntelliJ IDEA 13.0.1,体验良好,控制台项目Command Line App就在顶级入口,很容易找到: 直到最近升级了IntelliJ IDEA 13.1.1之后,我突然发现我再也找不到Co...

字符串编辑距离的几种实现

字符串编辑距离的几种实现

hankcs阅读(2907)评论(1)

春暖花开,踏青时节,我看完了形式语言与自动机这一章这一章提到字符串编辑距离,于是动手实现了几个。编辑距离主要用于拼写纠错,貌似Google 2013的校招笔试题里就有这个。 常见的编辑距离定义 通过插入删除或替换使得一个字符串变为另一个字符...

双数组Trie树(DoubleArrayTrie)Java实现

双数组Trie树(DoubleArrayTrie)Java实现

hankcs阅读(11821)评论(51)

双数组Trie树(DoubleArrayTrie)是一种空间复杂度低的Trie树,应用于字符区间大的语言(如中文、日文等)分词领域。 双数组Trie (Double-Array Trie)结构由日本人JUN-ICHI AOE于1989年提出...

Trie树分词

Trie树分词

hankcs阅读(4529)评论(19)

最近在看Ansj中文分词的源码,以前没有涉足过这个领域,所以需要做一些笔记。 2015年4月13日更新 经过研究与试验,我觉得trie树分词是一种很落后的技术。 最完美的分词、停用词过滤的技术是Aho Corasick自动机结合Double...

我的开源项目

HanLP自然语言处理包基于DoubleArrayTrie的Aho Corasick自动机