放牧代码和思想
专注自然语言处理、机器学习算法
    This thing called love. Know I would've. Thrown it all away. Wouldn't hesitate.

编程开发

第21页
判断双字节字符

判断双字节字符

阅读(6984)评论(0)

C/C++的基本功了,在看ICTCLAS分词源码的时候偶然看到,写段例子验证一下。 由于ANSI字符有128个, 所以, ANSI字符的bit最高位为0, 当bit最高位为1时, 就表示是个双字节字符了。而char(也即是signed ch...

Trie树分词

Trie树分词

阅读(16972)评论(21)

最近在看Ansj中文分词的源码,以前没有涉足过这个领域,所以需要做一些笔记。 2015年4月13日更新 经过研究与试验,我觉得trie树分词是一种很落后的技术。 最完美的分词、停用词过滤的技术是Aho Corasick自动机结合Double...

AOJ 2170: Marked Ancestor 题解 《挑战程序设计竞赛》

AOJ 2170: Marked Ancestor 题解 《挑战程序设计竞赛》

阅读(5070)评论(3)

AOJ 2170: Marked Ancestor 染色祖先:距离某节点最近的染色节点称为祖先,求染色过程中各节点祖先。 2.4 加工并储存数据的数据结构 并查集 稍有些复杂,需要bfs和两棵树。一棵树用来维护并查集,一棵树用来保存原来的树...

Lucene 同义词

Lucene 同义词

阅读(9372)评论(4)

在Lucene4.6中通过SynonymFilterFactory实现中文同义词非常方便,只需几行代码和一个同义词词典。这个词典还能在Lucene中实现一定程度的拼写纠错,提升搜索体验。在下面这个例子中我们从磁盘载入一个同义词词典,并且对“...

Lucene 时间排序

Lucene 时间排序

阅读(7294)评论(3)

在Lucene4.6中,想要实现搜索结果按照时间倒序的效果:如果两个文档得分相同,那么就按照发布时间倒序排列;否则就按照分数排列。这种效果在Lucene4.6中实现起来极其简单,直接利用search接口的Sort参数即可达成,完全不需要像某...

POJ 2236 Wireless Network 题解 《挑战程序设计竞赛》

POJ 2236 Wireless Network 题解 《挑战程序设计竞赛》

阅读(4770)评论(0)

POJ 2236 Wireless Network 无线网络:ACM团队只修电脑不过夜!有N台电脑坏了,它们原本组成这样一个局域网:距离d内的两台电脑互联。现在通过修理和查看操作,求查看时两台电脑是否互联? 2.4 加工并储存数据的数据结构...

POJ 3614 Sunscreen 题解 《挑战程序设计竞赛》

POJ 3614 Sunscreen 题解 《挑战程序设计竞赛》

阅读(6596)评论(0)

POJ 3614 Sunscreen 奶牛美容:有C头奶牛日光浴,每头奶牛分别需要minSPF_i和maxSPF_i单位强度之间的阳光。现有L种防晒霜,分别能使阳光强度稳定为SPF_i,其瓶数为cover_i。求最多满足多少头奶牛 最小堆 ...

我的作品

HanLP自然语言处理包《自然语言处理入门》