放牧代码和思想
专注自然语言处理、机器学习算法
    This thing called love. Know I would've. Thrown it all away. Wouldn't hesitate.

编程开发

第22页
POJ Cow Exhibition 题解 《挑战程序设计竞赛(第2版)》

POJ Cow Exhibition 题解 《挑战程序设计竞赛(第2版)》

阅读(4725)评论(0)

POJ 2184 Cow Exhibition 奶牛CJ:有N头奶牛想参加CJ,每头奶牛的智商分别为S_i,情商为F_i。欲挑出一群奶牛使得S之和与F之和都不为负数,且SF之和最大,求此最大值。 01背包 一开学又是工作又是赶寒假作业的,都...

Lucene评分算法解释

Lucene评分算法解释

阅读(9630)评论(0)

Lucene的IndexSearcher提供一个explain方法,能够解释Document的Score是怎么得来的,具体每一部分的得分都可以详细地打印出来。这里用一个中文实例来纯手工验算一遍Lucene的评分算法,并且结合Lucene的源...

《Lucene实战(第2版)》 配书代码在IDEA下的编译方法

《Lucene实战(第2版)》 配书代码在IDEA下的编译方法

阅读(7457)评论(3)

《Lucene实战(第2版)》 配书代码的下载地址点此,解压后得到lia2e目录,编译运行方法有两种: 最基础的Ant编译: 点击右边的加号载入lia2e下的build.xml脚本,接着在列表里双击某单元对应的程序就行了: 通过IDEA C...

5.4 用神经网络做欺诈检测

5.4 用神经网络做欺诈检测

阅读(6409)评论(0)

这是分类算法在欺诈检测方面的应用。 5.4.1交易数据中关于欺诈检测的一个用例 假设有如下样例数据: 正常交易集合:data/ch05/fraud/descriptions.txt AMAZON.COM USAIRWAY EXPEDIA T...

5.3 邮件的自动分类与垃圾邮件过滤

5.3 邮件的自动分类与垃圾邮件过滤

阅读(7276)评论(0)

这一节的目的: 利用二分类区分正常邮件与垃圾邮件。 将邮件分为精细的类别。 5.3.1 朴素贝叶斯分类 于第二章用到的贝叶斯分类器一样,连测试数据都是一样的。 主程序: package com.hankcs; import&nbs...

对分类的需求和分类器的概述

对分类的需求和分类器的概述

阅读(4899)评论(0)

分类是比聚类更加高级的一项认知活动,比如瓦力是一个机器人,而非“瓦力和威震天属于同一个组别”这样模糊的聚类。 5.1 对分类的需求 博客的文章需要分类,饭店的菜单也需要分类,学术体系有严格的分类,在《智能Web算法》里,称一个分类为一个本体...

4.6 DBSCAN

4.6 DBSCAN

阅读(5228)评论(0)

DBSCAN是一种基于密度的空间聚类算法,适用于含噪声的数据。 4.6.1 基于密度的算法简介 生活经验,将密度集中点圈起来就成为一个聚类,而那些分散的点,则被称为噪声。DBSCAN算法的目的是发现数据集中的聚类和噪声。 主程序: pack...

4.5 健壮的链接型聚类(ROCK)

4.5 健壮的链接型聚类(ROCK)

阅读(5648)评论(1)

原书译为“鲁棒的链接型聚类”,这个“鲁棒”真的太绅(henn)士(tai)了。我查了下,“鲁棒”来源于英文“Robust”,意为“强健的,稳固的,耐用的,粗野的,浓的”等。“Robustness”的一般含义是“强度,  ...

我的作品

HanLP自然语言处理包《自然语言处理入门》