放牧代码和思想
专注自然语言处理、机器学习算法
    This thing called love. Know I would've. Thrown it all away. Wouldn't hesitate.

2014年09月的文章

第2页
实战HMM-Viterbi角色标注中国人名识别
命名实体识别

实战HMM-Viterbi角色标注中国人名识别

阅读(18076)评论(57)

这几天写完了人名识别模块,与分词放到一起形成了两层隐马模型。虽然在算法或模型上没有什么新意,但是胜在训练语料比较新,对质量把关比较严,实测效果很满意。比如这句真实的新闻“签约仪式前,秦光荣、李纪恒、仇和等一同会见了参加签约的企业家。”,分词...

通用维特比算法的Java实现
自然语言处理

通用维特比算法的Java实现

阅读(11601)

用Java实现的求解HMM的维特比算法,开源在Git上:https://github.com/hankcs/Viterbi。代码本身没什么新意,看到Git上没有好用的Viterbi的Java实现,所以补个缺。特点是简单好懂,一个方法搞定。调...

WordPress安装Memcached缓存加速
WordPress

WordPress安装Memcached缓存加速

阅读(5407)评论(2)

内存缓存Memcached可以突破MySQL性能瓶颈,加速博客的访问。 安装Memcached拓展 Memcached是php的一个拓展,类似的拓展还有Memcache。少了一个d的是旧版,多了一个d是新版。新版有更好的性能,推荐安装。 我...

调整VM Option优化JVM性能
Java

调整VM Option优化JVM性能

阅读(14025)评论(1)

今天一个List大约要放入5万个对象,每个对象是对一篇语料的解析结果。语料库在磁盘里大约有200MB,读入内存后大小未知。当我解析了10000篇的时候,明显感觉速度降了下来,按理说LinkedList插入效率很高,但是换用数组之后一样慢,单...

Java多线程同步实例
Java

Java多线程同步实例

阅读(8529)评论(5)

最近的NLP程序要处理的数据上十万,单线程力不从心。写一个小PlayGround来演示分割任务、多线程同步、合并任务。 目标 假设有12个数,对每个数执行一次加法耗时1秒。现在开4个线程,希望在3秒内完成任务。   &n...

提取中文句子主谓宾的Java实现
自然语言处理

提取中文句子主谓宾的Java实现

阅读(20940)评论(31)

在自然语境中,一个意思可以有多种表现。比如“我喜欢你”“我喜欢隔壁班的你”“你被我偷偷的喜欢着”都表达了“我喜欢你”。搜索引擎如果机械地按照词频算法检索的话,会误解为“我喜欢隔壁班”“你喜欢我”,毕竟词频一样,顺序也差不多。 利用依存关系可...

我的作品

HanLP自然语言处理包《自然语言处理入门》