
4.2 聚类算法概述
如同SQL和数组排序那样,聚类是广义上的排序。通过排序对象,聚类算法找到对象的邻居,同时保留对象的多维性。聚类算法的目的是识别分组,同时能拓展到多维空间。 聚类算法有三种分类方式: 4.2.1 基于分组结构的聚类算法分类 类似于WordPr...
如同SQL和数组排序那样,聚类是广义上的排序。通过排序对象,聚类算法找到对象的邻居,同时保留对象的多维性。聚类算法的目的是识别分组,同时能拓展到多维空间。 聚类算法有三种分类方式: 4.2.1 基于分组结构的聚类算法分类 类似于WordPr...
依靠索引和用户点击的确可以搜索数十万个文档,但是由于文档中不存在“链接”这个概念,那就无法应用PR来对其排名了。《智能Web算法》里介绍了DocRank算法来排序文档。 package com.hankcs; import&nbs...
搜索引擎通过分析每个用户的每次搜索与用户的每次点击,从中学习到哪个结果才是用户最需要的,最终可以针对每个用户改进搜索结果。这是机器学习一个实例。 在《智能Web算法》的2.4章,给出了简单的实现,利用用户点击数据来训练搜索引擎,得出每个结果...
如果仅仅依靠索引来提供检索结果的话,将会受到垃圾网页的干扰,将2.1节的源码中添加垃圾网页的那行注释取消,会发现垃圾网页排名第一: Search results using Lucene index&...
这是《智能Web算法》的笔记,备忘备查。 Lucene是一个成功的开源IR(信息获取)库,可以快速地分析、索引和搜索文档(网页和电子文档)。 Lucene现在最新版本已经有4.6了,由于《智能Web算法》的配书代码用的是2.3.0,所以我依...