码农场

放牧代码和思想
专注自然语言处理、机器学习算法
    愛しさ 優しさ すべて投げ出してもいい

最新发布 第29页

POJ 3254 Corn Fields 题解 《挑战程序设计竞赛》
算法

POJ 3254 Corn Fields 题解 《挑战程序设计竞赛》

阅读(6104)评论(0)

POJ 3254 Corn Fields 种玉米:农夫约翰有n*m块地,其中一些地荒掉了。玉米是一种傲娇的植物,种在相邻的地里会导致不孕不育。求所有种法数对100000000求余。 3.4熟练掌握动态规划 状态压缩DP 今天换了CLion,...

JetBrains C++ IDE CLion配置与评测
C++

JetBrains C++ IDE CLion配置与评测

阅读(38713)评论(26)

等了大半年的JetBrains C++ IDE千呼万唤始出来!上次我猜2014年肯定发布,今天经@wet2_cn同学的提醒,我去官博一看,嘿!有了!赶紧安装试了一把,感觉这是迄今为止用过最好的Cpp IDE,没有之一,这里做个简单的评测与推...

实战HMM-Viterbi角色标注中国人名识别
命名实体识别

实战HMM-Viterbi角色标注中国人名识别

阅读(19306)评论(57)

这几天写完了人名识别模块,与分词放到一起形成了两层隐马模型。虽然在算法或模型上没有什么新意,但是胜在训练语料比较新,对质量把关比较严,实测效果很满意。比如这句真实的新闻“签约仪式前,秦光荣、李纪恒、仇和等一同会见了参加签约的企业家。”,分词...

通用维特比算法的Java实现
自然语言处理

通用维特比算法的Java实现

阅读(12225)

用Java实现的求解HMM的维特比算法,开源在Git上:https://github.com/hankcs/Viterbi。代码本身没什么新意,看到Git上没有好用的Viterbi的Java实现,所以补个缺。特点是简单好懂,一个方法搞定。调...

调整VM Option优化JVM性能
Java

调整VM Option优化JVM性能

阅读(14441)评论(1)

今天一个List大约要放入5万个对象,每个对象是对一篇语料的解析结果。语料库在磁盘里大约有200MB,读入内存后大小未知。当我解析了10000篇的时候,明显感觉速度降了下来,按理说LinkedList插入效率很高,但是换用数组之后一样慢,单...

Java多线程同步实例
Java

Java多线程同步实例

阅读(8742)评论(5)

最近的NLP程序要处理的数据上十万,单线程力不从心。写一个小PlayGround来演示分割任务、多线程同步、合并任务。 目标 假设有12个数,对每个数执行一次加法耗时1秒。现在开4个线程,希望在3秒内完成任务。   &n...

提取中文句子主谓宾的Java实现
自然语言处理

提取中文句子主谓宾的Java实现

阅读(21814)评论(31)

在自然语境中,一个意思可以有多种表现。比如“我喜欢你”“我喜欢隔壁班的你”“你被我偷偷的喜欢着”都表达了“我喜欢你”。搜索引擎如果机械地按照词频算法检索的话,会误解为“我喜欢隔壁班”“你喜欢我”,毕竟词频一样,顺序也差不多。 利用依存关系可...

TextRank算法自动摘要的Java实现
自然语言处理

TextRank算法自动摘要的Java实现

阅读(23353)评论(25)

上次写过《TextRank算法提取关键词的Java实现》,这次用TextRank实现文章的自动摘要。 所谓自动摘要,就是从文章中自动抽取关键句。何谓关键句?人类的理解是能够概括文章中心的句子,机器的理解只能模拟人类的理解,即拟定一个权重的评...

Lucene高亮关键字与设置高亮串长度
Java

Lucene高亮关键字与设置高亮串长度

阅读(9423)评论(3)

Lucene的Hightlight模块可以高亮搜索结果中的关键字,给搜索引擎自定义界面的自由。 如何创建Highlighter 为了创建一个Highlighter,需要一个Formatter和一个Scorer,如下所示: Highlight...

我的作品

HanLP自然语言处理包《自然语言处理入门》