Lucene 同义词
在Lucene4.6中通过SynonymFilterFactory实现中文同义词非常方便,只需几行代码和一个同义词词典。这个词典还能在Lucene中实现一定程度的拼写纠错,提升搜索体验。在下面这个例子中我们从磁盘载入一个同义词词典,并且对“...
在Lucene4.6中通过SynonymFilterFactory实现中文同义词非常方便,只需几行代码和一个同义词词典。这个词典还能在Lucene中实现一定程度的拼写纠错,提升搜索体验。在下面这个例子中我们从磁盘载入一个同义词词典,并且对“...
在Lucene4.6中,想要实现搜索结果按照时间倒序的效果:如果两个文档得分相同,那么就按照发布时间倒序排列;否则就按照分数排列。这种效果在Lucene4.6中实现起来极其简单,直接利用search接口的Sort参数即可达成,完全不需要像某...
这是旧代码在新版本Lucene中出现的异常,异常如下: Exception in thread "main" java.lang.IllegalStateException:&nb...
Lucene的IndexSearcher提供一个explain方法,能够解释Document的Score是怎么得来的,具体每一部分的得分都可以详细地打印出来。这里用一个中文实例来纯手工验算一遍Lucene的评分算法,并且结合Lucene的源...
《Lucene实战(第2版)》 配书代码的下载地址点此,解压后得到lia2e目录,编译运行方法有两种: 最基础的Ant编译: 点击右边的加号载入lia2e下的build.xml脚本,接着在列表里双击某单元对应的程序就行了: 通过IDEA C...
这是分类算法在欺诈检测方面的应用。 5.4.1交易数据中关于欺诈检测的一个用例 假设有如下样例数据: 正常交易集合:data/ch05/fraud/descriptions.txt AMAZON.COM USAIRWAY EXPEDIA T...
这一节的目的: 利用二分类区分正常邮件与垃圾邮件。 将邮件分为精细的类别。 5.3.1 朴素贝叶斯分类 于第二章用到的贝叶斯分类器一样,连测试数据都是一样的。 主程序: package com.hankcs; import&nbs...
DBSCAN是一种基于密度的空间聚类算法,适用于含噪声的数据。 4.6.1 基于密度的算法简介 生活经验,将密度集中点圈起来就成为一个聚类,而那些分散的点,则被称为噪声。DBSCAN算法的目的是发现数据集中的聚类和噪声。 主程序: pack...
原书译为“鲁棒的链接型聚类”,这个“鲁棒”真的太绅(henn)士(tai)了。我查了下,“鲁棒”来源于英文“Robust”,意为“强健的,稳固的,耐用的,粗野的,浓的”等。“Robustness”的一般含义是“强度, ...
前面的三种基于链接的算法都是“合并”,k-means算法是一种“分割”算法,据说是实际应用最广泛的聚类算法。 4.4.1 初识k-means算法 主程序: package com.hankcs; import iweb2...