放牧代码和思想
专注自然语言处理、机器学习算法
    Why join the Navy if you can be a pirate?

Java

第4页
4.3 基于链接的算法

4.3 基于链接的算法

hankcs阅读(1530)评论(0)

继续使用4.1中的数据,聚类算法使用的数据结构是树。 4.3.1 树状图:基本的聚类数据结构 定义集合[d,k,{…}],d代表每个聚类中元素间相似度的最小值(距离的最大值),k代表聚类的数量,{…}是每个聚类集合的...

4.2 聚类算法概述

4.2 聚类算法概述

hankcs阅读(1546)评论(0)

如同SQL和数组排序那样,聚类是广义上的排序。通过排序对象,聚类算法找到对象的邻居,同时保留对象的多维性。聚类算法的目的是识别分组,同时能拓展到多维空间。 聚类算法有三种分类方式: 4.2.1 基于分组结构的聚类算法分类 类似于WordPr...

4.1 聚类的需求

4.1 聚类的需求

hankcs阅读(2995)评论(0)

       聚类指的是分组时,将类似的事物放在一起。应用于发布有针对性的广告,显示相关文章和在网站中构建社交网络等方面。 4.1.1 网站中的用户组:案例研究  &nb...

3.4 像Netflix.com那样推荐电影

3.4 像Netflix.com那样推荐电影

hankcs阅读(1779)评论(0)

3.4.1 电影数据集的介绍及推荐器 3.4.2 数据标准化与相关系数          这是世界上最大的在线电影租赁商,技术核心是一个推荐系统 3.4.1 电影数据集的...

3.3 推荐朋友、文章与新闻报道

3.3 推荐朋友、文章与新闻报道

hankcs阅读(1390)评论(0)

3.3.1 简介 3.3.2 发现朋友 三角效应 3.3.3 DiggDelphi的内部工作机制          这一节的目标是实现一个类似豆瓣的网站,目的在于鉴别出具...

3.2 推荐引擎是怎么工作的

3.2 推荐引擎是怎么工作的

hankcs阅读(1824)评论(0)

3.2.1 基于相似用户的推荐 计算用户相似度 3.2.2 基于相似条目的推荐 3.2.3 基于内容的推荐 样例设置 基于内容的相似度的要点 三类基于内容的推荐引擎        ...

3.1 一个在线音乐商店:基本概念

3.1 一个在线音乐商店:基本概念

hankcs阅读(1301)评论(0)

3.1.1 距离与相似度的概念 3.1.2 走进相似度的计算 3.1.3 什么才是最好的相似度计算公式?          通过用户对某些音乐的评分来预测对其他音乐的评分...

《智能Web算法》2.5 Word、PDF等无链接文档的排序

《智能Web算法》2.5 Word、PDF等无链接文档的排序

hankcs阅读(2426)评论(0)

依靠索引和用户点击的确可以搜索数十万个文档,但是由于文档中不存在“链接”这个概念,那就无法应用PR来对其排名了。《智能Web算法》里介绍了DocRank算法来排序文档。 package com.hankcs; import&nbs...

《智能Web算法》2.4 根据用户点击改进搜索结果

《智能Web算法》2.4 根据用户点击改进搜索结果

hankcs阅读(2391)评论(2)

搜索引擎通过分析每个用户的每次搜索与用户的每次点击,从中学习到哪个结果才是用户最需要的,最终可以针对每个用户改进搜索结果。这是机器学习一个实例。 在《智能Web算法》的2.4章,给出了简单的实现,利用用户点击数据来训练搜索引擎,得出每个结果...

我的开源项目

HanLP自然语言处理包基于DoubleArrayTrie的Aho Corasick自动机