放牧代码和思想
专注自然语言处理、机器学习算法

Java

第3页
Lucene 同义词

Lucene 同义词

hankcs阅读(4415)评论(4)

在Lucene4.6中通过SynonymFilterFactory实现中文同义词非常方便,只需几行代码和一个同义词词典。这个词典还能在Lucene中实现一定程度的拼写纠错,提升搜索体验。在下面这个例子中我们从磁盘载入一个同义词词典,并且对“...

Lucene 时间排序

Lucene 时间排序

hankcs阅读(3724)评论(3)

在Lucene4.6中,想要实现搜索结果按照时间倒序的效果:如果两个文档得分相同,那么就按照发布时间倒序排列;否则就按照分数排列。这种效果在Lucene4.6中实现起来极其简单,直接利用search接口的Sort参数即可达成,完全不需要像某...

Lucene评分算法解释

Lucene评分算法解释

hankcs阅读(4218)评论(2)

Lucene的IndexSearcher提供一个explain方法,能够解释Document的Score是怎么得来的,具体每一部分的得分都可以详细地打印出来。这里用一个中文实例来纯手工验算一遍Lucene的评分算法,并且结合Lucene的源...

《Lucene实战(第2版)》 配书代码在IDEA下的编译方法

《Lucene实战(第2版)》 配书代码在IDEA下的编译方法

hankcs阅读(2870)评论(3)

《Lucene实战(第2版)》 配书代码的下载地址点此,解压后得到lia2e目录,编译运行方法有两种: 最基础的Ant编译: 点击右边的加号载入lia2e下的build.xml脚本,接着在列表里双击某单元对应的程序就行了: 通过IDEA C...

5.4 用神经网络做欺诈检测

5.4 用神经网络做欺诈检测

hankcs阅读(3156)评论(0)

这是分类算法在欺诈检测方面的应用。 5.4.1交易数据中关于欺诈检测的一个用例 假设有如下样例数据: 正常交易集合:data/ch05/fraud/descriptions.txt AMAZON.COM USAIRWAY EXPEDIA T...

5.3 邮件的自动分类与垃圾邮件过滤

5.3 邮件的自动分类与垃圾邮件过滤

hankcs阅读(2682)评论(0)

这一节的目的: 利用二分类区分正常邮件与垃圾邮件。 将邮件分为精细的类别。 5.3.1 朴素贝叶斯分类 于第二章用到的贝叶斯分类器一样,连测试数据都是一样的。 主程序: package com.hankcs; import&nbs...

4.6 DBSCAN

4.6 DBSCAN

hankcs阅读(1629)评论(0)

DBSCAN是一种基于密度的空间聚类算法,适用于含噪声的数据。 4.6.1 基于密度的算法简介 生活经验,将密度集中点圈起来就成为一个聚类,而那些分散的点,则被称为噪声。DBSCAN算法的目的是发现数据集中的聚类和噪声。 主程序: pack...

4.5 健壮的链接型聚类(ROCK)

4.5 健壮的链接型聚类(ROCK)

hankcs阅读(1612)评论(1)

原书译为“鲁棒的链接型聚类”,这个“鲁棒”真的太绅(henn)士(tai)了。我查了下,“鲁棒”来源于英文“Robust”,意为“强健的,稳固的,耐用的,粗野的,浓的”等。“Robustness”的一般含义是“强度,  ...

4.4 k-means 算法

4.4 k-means 算法

hankcs阅读(2000)评论(0)

前面的三种基于链接的算法都是“合并”,k-means算法是一种“分割”算法,据说是实际应用最广泛的聚类算法。 4.4.1 初识k-means算法 主程序: package com.hankcs; import iweb2...

我的开源项目

HanLP自然语言处理包基于DoubleArrayTrie的Aho Corasick自动机