Java

第3页

Lucene 同义词

2014-03-09阅读(10066)评论(4)

在Lucene4.6中通过SynonymFilterFactory实现中文同义词非常方便，只需几行代码和一个同义词词典。这个词典还能在Lucene中实现一定程度的拼写纠错，提升搜索体验。在下面这个例子中我们从磁盘载入一个同义词词典，并且对“...

2014-03-08阅读(7830)评论(3)

在Lucene4.6中，想要实现搜索结果按照时间倒序的效果：如果两个文档得分相同，那么就按照发布时间倒序排列；否则就按照分数排列。这种效果在Lucene4.6中实现起来极其简单，直接利用search接口的Sort参数即可达成，完全不需要像某...

2014-02-25阅读(9954)评论(0)

这是旧代码在新版本Lucene中出现的异常，异常如下： Exception in thread "main" java.lang.IllegalStateException:&nb...

2014-02-20阅读(10436)评论(0)

Lucene的IndexSearcher提供一个explain方法，能够解释Document的Score是怎么得来的，具体每一部分的得分都可以详细地打印出来。这里用一个中文实例来纯手工验算一遍Lucene的评分算法，并且结合Lucene的源...

2014-02-18阅读(8061)评论(3)

《Lucene实战(第2版)》配书代码的下载地址点此，解压后得到lia2e目录，编译运行方法有两种：最基础的Ant编译：点击右边的加号载入lia2e下的build.xml脚本，接着在列表里双击某单元对应的程序就行了：通过IDEA C...

2014-02-18阅读(6967)评论(0)

这是分类算法在欺诈检测方面的应用。 5.4.1交易数据中关于欺诈检测的一个用例假设有如下样例数据：正常交易集合：data/ch05/fraud/descriptions.txt AMAZON.COM USAIRWAY EXPEDIA T...

2014-02-18阅读(11045)评论(0)

这一节的目的：利用二分类区分正常邮件与垃圾邮件。将邮件分为精细的类别。 5.3.1 朴素贝叶斯分类于第二章用到的贝叶斯分类器一样，连测试数据都是一样的。主程序： package com.hankcs; import&nbs...

2014-02-16阅读(5807)评论(0)

DBSCAN是一种基于密度的空间聚类算法，适用于含噪声的数据。 4.6.1 基于密度的算法简介生活经验，将密度集中点圈起来就成为一个聚类，而那些分散的点，则被称为噪声。DBSCAN算法的目的是发现数据集中的聚类和噪声。主程序： pack...

2014-02-16阅读(6152)评论(1)

原书译为“鲁棒的链接型聚类”，这个“鲁棒”真的太绅（henn）士(tai)了。我查了下，“鲁棒”来源于英文“Robust”，意为“强健的，稳固的，耐用的，粗野的，浓的”等。“Robustness”的一般含义是“强度, ...

2014-02-16阅读(6315)评论(0)

前面的三种基于链接的算法都是“合并”，k-means算法是一种“分割”算法，据说是实际应用最广泛的聚类算法。 4.4.1 初识k-means算法主程序： package com.hankcs; import iweb2...