放牧代码和思想
专注自然语言处理、机器学习算法
    愛しさ 優しさ すべて投げ出してもいい

2014年02月的文章

第2页
4.5 健壮的链接型聚类(ROCK)
Java

4.5 健壮的链接型聚类(ROCK)

阅读(5193)评论(1)

原书译为“鲁棒的链接型聚类”,这个“鲁棒”真的太绅(henn)士(tai)了。我查了下,“鲁棒”来源于英文“Robust”,意为“强健的,稳固的,耐用的,粗野的,浓的”等。“Robustness”的一般含义是“强度,  ...

4.4 k-means 算法
Java

4.4 k-means 算法

阅读(5245)评论(0)

前面的三种基于链接的算法都是“合并”,k-means算法是一种“分割”算法,据说是实际应用最广泛的聚类算法。 4.4.1 初识k-means算法 主程序: package com.hankcs; import iweb2...

4.3 基于链接的算法
Java

4.3 基于链接的算法

阅读(3805)评论(0)

继续使用4.1中的数据,聚类算法使用的数据结构是树。 4.3.1 树状图:基本的聚类数据结构 定义集合[d,k,{…}],d代表每个聚类中元素间相似度的最小值(距离的最大值),k代表聚类的数量,{…}是每个聚类集合的...

4.2 聚类算法概述
Java

4.2 聚类算法概述

阅读(3793)评论(0)

如同SQL和数组排序那样,聚类是广义上的排序。通过排序对象,聚类算法找到对象的邻居,同时保留对象的多维性。聚类算法的目的是识别分组,同时能拓展到多维空间。 聚类算法有三种分类方式: 4.2.1 基于分组结构的聚类算法分类 类似于WordPr...

4.1 聚类的需求
Java

4.1 聚类的需求

阅读(7480)评论(0)

       聚类指的是分组时,将类似的事物放在一起。应用于发布有针对性的广告,显示相关文章和在网站中构建社交网络等方面。 4.1.1 网站中的用户组:案例研究  &nb...

3.4 像Netflix.com那样推荐电影
Java

3.4 像Netflix.com那样推荐电影

阅读(4586)评论(0)

3.4.1 电影数据集的介绍及推荐器 3.4.2 数据标准化与相关系数          这是世界上最大的在线电影租赁商,技术核心是一个推荐系统 3.4.1 电影数据集的...

3.2 推荐引擎是怎么工作的
Java

3.2 推荐引擎是怎么工作的

阅读(4434)评论(1)

3.2.1 基于相似用户的推荐 计算用户相似度 3.2.2 基于相似条目的推荐 3.2.3 基于内容的推荐 样例设置 基于内容的相似度的要点 三类基于内容的推荐引擎        ...

3.1 一个在线音乐商店:基本概念
Java

3.1 一个在线音乐商店:基本概念

阅读(3615)评论(0)

3.1.1 距离与相似度的概念 3.1.2 走进相似度的计算 3.1.3 什么才是最好的相似度计算公式?          通过用户对某些音乐的评分来预测对其他音乐的评分...

皮尔逊相关系数和安斯库姆四重奏
数学基礎

皮尔逊相关系数和安斯库姆四重奏

阅读(6658)评论(1)

《智能Web算法》在讲相关系数的时候用到了皮尔逊相关系数,我茫然不知为何物,看了定义才知道原来就是概率与数理统计课里面的相关系数r。正好概率与数理统计课的东西考完就还回去了,这边做个笔记。 皮尔逊相关系数 援引维基百科的定义: 两个变量之间...

我的作品

HanLP自然语言处理包《自然语言处理入门》