码农场

放牧代码和思想
专注自然语言处理、机器学习算法
    博主不用扣扣,公事请博客留言,私事请微博私信。开源项目一律GitHub见,发错地方恕不回复,谢谢。

最新发布 第7页

CS229编程1:线性回归
机器学习

CS229编程1:线性回归

hankcs阅读(458)评论(2)

看完《统计学习方法》后,最近以将近一天一课速度把斯坦福的机器学习公开课看了大半。速度很快但感觉没有《方法》扎实,应该是没有足够的实践所致。正巧最近也在学Matlab,于是把课后的编程练习过一遍,一举两得。 目标 作为CS229的第一次编程练...

POJ 3180 The Cow Prom 题解《挑战程序设计竞赛》
算法

POJ 3180 The Cow Prom 题解《挑战程序设计竞赛》

hankcs阅读(231)评论(0)

POJ 3180 The Cow Prom  奶牛圆舞:N头牛,M条有向绳子,能组成几个歌舞团?要求顺时针逆时针都能带动舞团内所有牛。 4.3成为图论大师之路  强连通分量分解 睡不着,刷一题解解闷。 所谓能带动,就是舞...

POJ 2315 Football Game 题解《挑战程序设计竞赛》
算法

POJ 2315 Football Game 题解《挑战程序设计竞赛》

hankcs阅读(208)评论(0)

POJ 2315 Football Game  国足:两名球员轮流从N个球中挑出不多于M个射门,每个球半径都是R,离球门S。由于国脚技术高超,每次只能踢出L以内的距离。进最后一个球者胜,求谁有必胜策略? 4.2找出游戏的必胜策略&...

序列标注模型算法比较
机器学习

序列标注模型算法比较

hankcs阅读(741)评论(6)

偶然浏览到一篇挺有实际参考价值的论文Nguyen and Guo(2007)。该文比较了一些模型和算法在词性标注和OCR任务上的性能,包括HMM、CRF、AP、Structured SVM、M3N、SEARN算法以及SLE算法,对算法选型很...

基于结构化平均感知机的分词器Java实现
中文分词

基于结构化平均感知机的分词器Java实现

hankcs阅读(763)评论(0)

最近高产似母猪,写了个基于AP的中文分词器,在Bakeoff-05的MSR语料上F值有96.11%。最重要的是,只训练了5个迭代;包含语料加载等IO操作在内,整个训练一共才花费23秒。应用裁剪算法去掉模型中80%的特征后,F值才下降不到0....

HanLP极致简繁转换
自然语言处理

HanLP极致简繁转换

hankcs阅读(525)评论(1)

谈起简繁转换,许多人以为是小意思,按字转换就行了。事实上,汉语历史悠久,地域复杂,发展至今在字符级别存在“一简对多繁”和“一繁对多简”,在词语级别上存在“简繁分歧词”,在港澳台等地则存在“字词习惯不同”的情况。为此,HanLP新增了“简体”...

CRF++代码分析
机器学习

CRF++代码分析

hankcs阅读(1512)评论(8)

本文按照调用顺序抽丝剥茧地分析了CRF++的代码,详细注释了主要函数,并指出了代码与理论公式的对应关系。内容包括拟牛顿法的目标函数、梯度、L2正则化、L-BFGS优化、概率图构建、前向后向算法、维特比算法等。 背景知识请参考《条件随机场》。...

条件随机场
机器学习

条件随机场

hankcs阅读(1506)评论(1)

本文是《统计学习方法》第11章的笔记,在课本的基础上加入了自己的注释和理解。作为CRF的入门读物,著名的几篇英文教程难度稍高,还是李航博士的《方法》比较适合初学者。其拟牛顿法讲解可以直接与CRF++的代码对应,实为难得。我还单独写了篇《CR...

我的开源项目

HanLP自然语言处理包基于DoubleArrayTrie的Aho Corasick自动机