放牧代码和思想
专注自然语言处理、机器学习算法
    恕不接待索要源码语料者、索求技术方案者、以及不Google的懒人。

2014年04月的文章

第3页
POJ 2395 Out of Hay题解 《挑战程序设计竞赛》
C++

POJ 2395 Out of Hay题解 《挑战程序设计竞赛》

阅读(3564)评论(0)

POJ 2395 Out of Hay 求干草:奶牛没草吃了,要去附近的农场找,求最短遍历路径上最长的那条路。 2.5 它们其实都是“图” 最小生成树 水题一道,作为2.5节最后一题真是抬举它了。唉,每天学点NLP的东西就不知不觉这个点了,...

Python正则表达式处理中文语料库
语料库

Python正则表达式处理中文语料库

阅读(7914)评论(4)

Python正则表达式处理中文文本文件一要注意编码,二要注意贪婪匹配模式。 以广为流传的人民日报分词语料为例: 人民网/nz 1月1日/t 讯/ng 据/p 《/w [纽约/nsf 时报/n]/nz 》/w 报道/v ,/w 美国/nsf ...

AOJ 2224 Save your cat 题解 《挑战程序设计竞赛》
C++

AOJ 2224 Save your cat 题解 《挑战程序设计竞赛》

阅读(2801)评论(0)

AOJ 2224 Save your cat 拯救猫咪:巫女建了一个魔法阵,由N个魔法桩和连接它们的M条魔法篱笆组成。每个由篱笆形成的圈子都至少困住了一只猫咪,而拆篱笆需要耗费等比例的圣水,求最小花费。 2.5 它们其实都是“图” 最小生成...

WordPress集成Lucene全文搜索
PHP

WordPress集成Lucene全文搜索

阅读(6698)评论(6)

终于将Lucene集成到中文WordPress中了,实现了中文博客的全文搜索。作为一个搞NLP的博主,如果还在用SQL的LIKE做搜索,那也太不上档次了。这次集成主要难点在于 ①PHP平台上并没有一款成熟的分词套件。 ②Lucene的PHP...

POJ 2377 Bad Cowtractors 题解 《挑战程序设计竞赛》
C++

POJ 2377 Bad Cowtractors 题解 《挑战程序设计竞赛》

阅读(3367)评论(2)

POJ 2377 Bad Cowtractors 坏奶牛:为了破坏农夫约翰的光纤计划,奶牛决定骗丫拉一条最长的网络。 2.5 它们其实都是“图” 最小生成树 其实是所谓的最大生成树,只要按花费从大到小加入树就行了。我看kruskal改一个符...

POJ 1258 Agri-Net 题解 《挑战程序设计竞赛》
C++

POJ 1258 Agri-Net 题解 《挑战程序设计竞赛》

阅读(3909)评论(0)

POJ 1258 Agri-Net G级光纤:农夫约翰当上村长,要给全村建光纤,求最小花费? 2.5 它们其实都是“图” 最小生成树 水题一道。今天看到有人做中文分词的时候自己实现哈希表,导致整个分词速度只有170kb/s,明明用个DATr...

IntelliJ IDEA 13.1.1 控制台项目入口
Java

IntelliJ IDEA 13.1.1 控制台项目入口

阅读(8909)评论(2)

事情是这样的,一个月以前一直在用IntelliJ IDEA 13.0.1,体验良好,控制台项目Command Line App就在顶级入口,很容易找到: 直到最近升级了IntelliJ IDEA 13.1.1之后,我突然发现我再也找不到Co...

NLTK中文语料库sinica_treebank
Python

NLTK中文语料库sinica_treebank

阅读(10443)评论(3)

NLTK包含Sinica (中央研究院)提供的繁体中文语料库,其在Python环境下的显示有些讲究。 NLTK sinica_treebank 显示中文 在IDLE中如果直接查看的话会显示十六进制码: >>> f...

我的作品

HanLP自然语言处理包《自然语言处理入门》