放牧代码和思想
专注自然语言处理、机器学习算法
    恕不接待索要源码语料者、索求技术方案者、以及不Google的懒人。

2014年02月的文章

月の珊瑚 日语注解 1-3
月の珊瑚

月の珊瑚 日语注解 1-3

hankcs阅读(2719)评论(0)

月之珊瑚朗读版日文注解 坂本真綾的声音真好听,要是精读教材课文是坂本真綾朗读的就好了( ̄▽ ̄")  「失礼。……さん、というのは貴方(あなた)ですか?」       名前...

Lucene评分算法解释
Java

Lucene评分算法解释

hankcs阅读(4865)评论(0)

Lucene的IndexSearcher提供一个explain方法,能够解释Document的Score是怎么得来的,具体每一部分的得分都可以详细地打印出来。这里用一个中文实例来纯手工验算一遍Lucene的评分算法,并且结合Lucene的源...

5.4 用神经网络做欺诈检测
Java

5.4 用神经网络做欺诈检测

hankcs阅读(3697)评论(0)

这是分类算法在欺诈检测方面的应用。 5.4.1交易数据中关于欺诈检测的一个用例 假设有如下样例数据: 正常交易集合:data/ch05/fraud/descriptions.txt AMAZON.COM USAIRWAY EXPEDIA T...

5.3 邮件的自动分类与垃圾邮件过滤
Java

5.3 邮件的自动分类与垃圾邮件过滤

hankcs阅读(3175)评论(0)

这一节的目的: 利用二分类区分正常邮件与垃圾邮件。 将邮件分为精细的类别。 5.3.1 朴素贝叶斯分类 于第二章用到的贝叶斯分类器一样,连测试数据都是一样的。 主程序: package com.hankcs; import&nbs...

对分类的需求和分类器的概述
算法

对分类的需求和分类器的概述

hankcs阅读(1687)评论(0)

分类是比聚类更加高级的一项认知活动,比如瓦力是一个机器人,而非“瓦力和威震天属于同一个组别”这样模糊的聚类。 5.1 对分类的需求 博客的文章需要分类,饭店的菜单也需要分类,学术体系有严格的分类,在《智能Web算法》里,称一个分类为一个本体...

4.6 DBSCAN
Java

4.6 DBSCAN

hankcs阅读(1876)评论(0)

DBSCAN是一种基于密度的空间聚类算法,适用于含噪声的数据。 4.6.1 基于密度的算法简介 生活经验,将密度集中点圈起来就成为一个聚类,而那些分散的点,则被称为噪声。DBSCAN算法的目的是发现数据集中的聚类和噪声。 主程序: pack...

我的开源项目

HanLP自然语言处理包基于DoubleArrayTrie的Aho Corasick自动机