
3.3 推荐朋友、文章与新闻报道
3.3.1 简介 3.3.2 发现朋友 三角效应 3.3.3 DiggDelphi的内部工作机制 这一节的目标是实现一个类似豆瓣的网站,目的在于鉴别出具...
3.3.1 简介 3.3.2 发现朋友 三角效应 3.3.3 DiggDelphi的内部工作机制 这一节的目标是实现一个类似豆瓣的网站,目的在于鉴别出具...
3.2.1 基于相似用户的推荐 计算用户相似度 3.2.2 基于相似条目的推荐 3.2.3 基于内容的推荐 样例设置 基于内容的相似度的要点 三类基于内容的推荐引擎 ...
3.1.1 距离与相似度的概念 3.1.2 走进相似度的计算 3.1.3 什么才是最好的相似度计算公式? 通过用户对某些音乐的评分来预测对其他音乐的评分...
《智能Web算法》在讲相关系数的时候用到了皮尔逊相关系数,我茫然不知为何物,看了定义才知道原来就是概率与数理统计课里面的相关系数r。正好概率与数理统计课的东西考完就还回去了,这边做个笔记。 皮尔逊相关系数 援引维基百科的定义: 两个变量之间...
依靠索引和用户点击的确可以搜索数十万个文档,但是由于文档中不存在“链接”这个概念,那就无法应用PR来对其排名了。《智能Web算法》里介绍了DocRank算法来排序文档。 package com.hankcs; import&nbs...
搜索引擎通过分析每个用户的每次搜索与用户的每次点击,从中学习到哪个结果才是用户最需要的,最终可以针对每个用户改进搜索结果。这是机器学习一个实例。 在《智能Web算法》的2.4章,给出了简单的实现,利用用户点击数据来训练搜索引擎,得出每个结果...
如果仅仅依靠索引来提供检索结果的话,将会受到垃圾网页的干扰,将2.1节的源码中添加垃圾网页的那行注释取消,会发现垃圾网页排名第一: Search results using Lucene index&...
这是《智能Web算法》的笔记,备忘备查。 Lucene是一个成功的开源IR(信息获取)库,可以快速地分析、索引和搜索文档(网页和电子文档)。 Lucene现在最新版本已经有4.6了,由于《智能Web算法》的配书代码用的是2.3.0,所以我依...
在看《智能Web算法》“朴素贝叶斯分类器的使用”一节的时候需要用到贝叶斯定理,而我已经有好几年没学过数学了。在检索贝叶斯定理的时候看到知乎上有一个很浅显的讲解。这个讲解是由一道题目引出的: 一机器在良好状态生产合格产品几率是90%,在故障状...
从Google code下载最新的配书代码,建议解压到C盘,不然路径很麻烦。 编译前确保Java安装并配置好环境变量,apache ant的环境变量可加可不加,但是一定要下载一个。把下面的傻瓜批处理复制,新建一个run.bat,粘贴进去,最...