放牧代码和思想
专注自然语言处理、机器学习算法
    博主不用扣扣,公事请博客留言,私事请微博私信。开源项目一律GitHub见,发错地方恕不回复,谢谢。

标签:《智能Web算法》

5.4 用神经网络做欺诈检测
Java

5.4 用神经网络做欺诈检测

hankcs阅读(3115)评论(0)

这是分类算法在欺诈检测方面的应用。 5.4.1交易数据中关于欺诈检测的一个用例 假设有如下样例数据: 正常交易集合:data/ch05/fraud/descriptions.txt AMAZON.COM USAIRWAY EXPEDIA T...

5.3 邮件的自动分类与垃圾邮件过滤
Java

5.3 邮件的自动分类与垃圾邮件过滤

hankcs阅读(2633)评论(0)

这一节的目的: 利用二分类区分正常邮件与垃圾邮件。 将邮件分为精细的类别。 5.3.1 朴素贝叶斯分类 于第二章用到的贝叶斯分类器一样,连测试数据都是一样的。 主程序: package com.hankcs; import&nbs...

对分类的需求和分类器的概述
算法

对分类的需求和分类器的概述

hankcs阅读(1377)评论(0)

分类是比聚类更加高级的一项认知活动,比如瓦力是一个机器人,而非“瓦力和威震天属于同一个组别”这样模糊的聚类。 5.1 对分类的需求 博客的文章需要分类,饭店的菜单也需要分类,学术体系有严格的分类,在《智能Web算法》里,称一个分类为一个本体...

4.6 DBSCAN
Java

4.6 DBSCAN

hankcs阅读(1607)评论(0)

DBSCAN是一种基于密度的空间聚类算法,适用于含噪声的数据。 4.6.1 基于密度的算法简介 生活经验,将密度集中点圈起来就成为一个聚类,而那些分散的点,则被称为噪声。DBSCAN算法的目的是发现数据集中的聚类和噪声。 主程序: pack...

4.5 健壮的链接型聚类(ROCK)
Java

4.5 健壮的链接型聚类(ROCK)

hankcs阅读(1588)评论(1)

原书译为“鲁棒的链接型聚类”,这个“鲁棒”真的太绅(henn)士(tai)了。我查了下,“鲁棒”来源于英文“Robust”,意为“强健的,稳固的,耐用的,粗野的,浓的”等。“Robustness”的一般含义是“强度,  ...

4.4 k-means 算法
Java

4.4 k-means 算法

hankcs阅读(1969)评论(0)

前面的三种基于链接的算法都是“合并”,k-means算法是一种“分割”算法,据说是实际应用最广泛的聚类算法。 4.4.1 初识k-means算法 主程序: package com.hankcs; import iweb2...

4.3 基于链接的算法
Java

4.3 基于链接的算法

hankcs阅读(1368)评论(0)

继续使用4.1中的数据,聚类算法使用的数据结构是树。 4.3.1 树状图:基本的聚类数据结构 定义集合[d,k,{…}],d代表每个聚类中元素间相似度的最小值(距离的最大值),k代表聚类的数量,{…}是每个聚类集合的...

4.2 聚类算法概述
Java

4.2 聚类算法概述

hankcs阅读(1375)评论(0)

如同SQL和数组排序那样,聚类是广义上的排序。通过排序对象,聚类算法找到对象的邻居,同时保留对象的多维性。聚类算法的目的是识别分组,同时能拓展到多维空间。 聚类算法有三种分类方式: 4.2.1 基于分组结构的聚类算法分类 类似于WordPr...

4.1 聚类的需求
Java

4.1 聚类的需求

hankcs阅读(2695)评论(0)

       聚类指的是分组时,将类似的事物放在一起。应用于发布有针对性的广告,显示相关文章和在网站中构建社交网络等方面。 4.1.1 网站中的用户组:案例研究  &nb...

3.4 像Netflix.com那样推荐电影
Java

3.4 像Netflix.com那样推荐电影

hankcs阅读(1601)评论(0)

3.4.1 电影数据集的介绍及推荐器 3.4.2 数据标准化与相关系数          这是世界上最大的在线电影租赁商,技术核心是一个推荐系统 3.4.1 电影数据集的...

我的开源项目

HanLP自然语言处理包基于DoubleArrayTrie的Aho Corasick自动机