放牧代码和思想
专注自然语言处理、机器学习算法
    愛しさ 優しさ すべて投げ出してもいい

算法

第21页
《智能Web算法》2.5 Word、PDF等无链接文档的排序

《智能Web算法》2.5 Word、PDF等无链接文档的排序

阅读(6476)评论(0)

依靠索引和用户点击的确可以搜索数十万个文档,但是由于文档中不存在“链接”这个概念,那就无法应用PR来对其排名了。《智能Web算法》里介绍了DocRank算法来排序文档。 package com.hankcs; import&nbs...

《智能Web算法》2.4 根据用户点击改进搜索结果

《智能Web算法》2.4 根据用户点击改进搜索结果

阅读(6592)评论(3)

搜索引擎通过分析每个用户的每次搜索与用户的每次点击,从中学习到哪个结果才是用户最需要的,最终可以针对每个用户改进搜索结果。这是机器学习一个实例。 在《智能Web算法》的2.4章,给出了简单的实现,利用用户点击数据来训练搜索引擎,得出每个结果...

《智能Web算法》2.1 用Lucene构建搜索引擎

《智能Web算法》2.1 用Lucene构建搜索引擎

阅读(6883)评论(2)

这是《智能Web算法》的笔记,备忘备查。 Lucene是一个成功的开源IR(信息获取)库,可以快速地分析、索引和搜索文档(网页和电子文档)。 Lucene现在最新版本已经有4.6了,由于《智能Web算法》的配书代码用的是2.3.0,所以我依...

AOJ 0558 Cheese 《挑战程序设计竞赛(第2版)》练习题答案

AOJ 0558 Cheese 《挑战程序设计竞赛(第2版)》练习题答案

阅读(5765)评论(0)

2.1 最基础的“穷竭搜索” 广度优先搜索 AOJ 0558 Cheese 在H * W的地图上有N个奶酪工厂,分别生产硬度为1-N的奶酪。有一只吃货老鼠准备从老鼠洞出发吃遍每一个工厂的奶酪。老鼠有一个体力值,初始时为1,每吃一个工厂的奶酪...

我的作品

HanLP自然语言处理包《自然语言处理入门》