
解决ivy is not available
今天用Ant编译Lucene时抛出错误: ivy is not available 原来是缺少一个ivy插件,ivy插件是用来智能管理dependency的。项目主页是http://ant.apache.org/ivy/ ,只需将...
今天用Ant编译Lucene时抛出错误: ivy is not available 原来是缺少一个ivy插件,ivy插件是用来智能管理dependency的。项目主页是http://ant.apache.org/ivy/ ,只需将...
在测试一个查询的时候,我发现第二条搜索结果非常令人不满意,竟然是一条毫无关系的结果。仔细查看了Explanation之后,看到了如下情况: 同义词有很多条,这些同义词虽然每一个的得分都不高,但是累积起来就产生了3.3分左右的高分,直接将一条...
在Lucene中,关闭一个IndexWriter时抛出AlreadyClosedException异常: org.apache.lucene.store.AlreadyClosedException: this Directory is c...
我的分词结果链表需要合并连续的数字和日期,所以需要熟悉一下Java Collection在遍历的过程中同时删除、合并元素的小trick。自己试验了一下,活用listIterator的previous()和next()方法就可以达到目的。 遍...
准备开一大项目的话,日志系统必不可少。Log4j是Java平台上最好的日志组件了,Log4j 2升级了不少API,拓展性更好。 Log4j 2安装 需要两个Jar即可:log4j-api-2.0-rc1.jar和log4j-core-2.0...
在学习《Machine Learning in Action》和《NLTK Natural Language Processing with Python》的过程中,我真切地感受到Numpy库的便捷与强大,线性代数的数据结构与运算封装得浅显...
事情是这样的,一个月以前一直在用IntelliJ IDEA 13.0.1,体验良好,控制台项目Command Line App就在顶级入口,很容易找到: 直到最近升级了IntelliJ IDEA 13.1.1之后,我突然发现我再也找不到Co...
春暖花开,踏青时节,我看完了形式语言与自动机这一章这一章提到字符串编辑距离,于是动手实现了几个。编辑距离主要用于拼写纠错,貌似Google 2013的校招笔试题里就有这个。 常见的编辑距离定义 通过插入删除或替换使得一个字符串变为另一个字符...
双数组Trie树(DoubleArrayTrie)是一种空间复杂度低的Trie树,应用于字符区间大的语言(如中文、日文等)分词领域。 双数组Trie (Double-Array Trie)结构由日本人JUN-ICHI AOE于1989年提出...
最近在看Ansj中文分词的源码,以前没有涉足过这个领域,所以需要做一些笔记。 2015年4月13日更新 经过研究与试验,我觉得trie树分词是一种很落后的技术。 最完美的分词、停用词过滤的技术是Aho Corasick自动机结合Double...