放牧代码和思想
专注自然语言处理、机器学习算法
    This thing called love. Know I would've. Thrown it all away. Wouldn't hesitate.

hankcs的文章

第39页
IntelliJ IDEA 13.1.1 控制台项目入口
Java

IntelliJ IDEA 13.1.1 控制台项目入口

阅读(10142)评论(2)

事情是这样的,一个月以前一直在用IntelliJ IDEA 13.0.1,体验良好,控制台项目Command Line App就在顶级入口,很容易找到: 直到最近升级了IntelliJ IDEA 13.1.1之后,我突然发现我再也找不到Co...

NLTK中文语料库sinica_treebank
Python

NLTK中文语料库sinica_treebank

阅读(13076)评论(3)

NLTK包含Sinica (中央研究院)提供的繁体中文语料库,其在Python环境下的显示有些讲究。 NLTK sinica_treebank 显示中文 在IDLE中如果直接查看的话会显示十六进制码: >>> f...

Python卸载模块
Python

Python卸载模块

阅读(7657)评论(0)

easy_install 卸载 通过easy_install 安装的模块可以直接通过  easy_install -m PackageName 卸载,然后删除\Python27\Lib\site-packages目录下的...

第3章 形式语言与自动机
自然语言处理

第3章 形式语言与自动机

阅读(11812)评论(0)

3.1 基本概念 3.1.1 图 无向图、有向图、连通图和回路。 3.1.2 树 森林:无回路无向图。 树:无回路连通无向图。 根树:有根节点的树。 3.1.3 字符串 Σ:是字符表。 字符串:由Σ中字符相连而成的有限序列被称之为Σ 上的字...

字符串编辑距离的几种实现
Java

字符串编辑距离的几种实现

阅读(7764)评论(1)

春暖花开,踏青时节,我看完了形式语言与自动机这一章这一章提到字符串编辑距离,于是动手实现了几个。编辑距离主要用于拼写纠错,貌似Google 2013的校招笔试题里就有这个。 常见的编辑距离定义 通过插入删除或替换使得一个字符串变为另一个字符...

自然语言处理入门
自然语言处理

自然语言处理入门

阅读(17865)评论(26)

看过很多书,也走过很多弯路,干脆自己写了本《自然语言处理入门》,应该算是入门的最短路径。 最近买了一系列自然语言处理的书,块头大,内容深奥。如果单纯地看一遍的话,估计如同流水无痕。不如也发扬烂笔头(烂键盘)的优良传统,将重点简明扼要地记下来...

我的作品

HanLP自然语言处理包《自然语言处理入门》