码农场

放牧代码和思想
专注自然语言处理、机器学习算法

最新发布 第7页

计算指数函数的和的对数
机器学习

计算指数函数的和的对数

hankcs阅读(432)评论(0)

译自哈佛大学《Computing Log-Sum-Exp》。在许多ML库中,经常看到这类函数,如scipy中的misc.logsumexp、CRF++中的CRFPP::logsumexp,其意义何在? 这篇文章旨在讲解这个必学,却没有任何M...

数值优化:理解L-BFGS算法
机器学习

数值优化:理解L-BFGS算法

hankcs阅读(577)评论(0)

译自《Numerical Optimization: Understanding L-BFGS》,本来只想作为学习CRF的补充材料,读完后发现收获很多,把许多以前零散的知识点都串起来了。对我而言,的确比零散地看论文要轻松得多。原文并没有太多...

隐马尔可夫模型
机器学习

隐马尔可夫模型

hankcs阅读(835)评论(1)

本文是《统计学习方法》第10章的笔记,用一段167行的Python代码实现了隐马模型观测序列的生成、前向后向算法、Baum-Welch无监督训练、维特比算法。公式与代码相互对照,循序渐进。 HMM算是个特别常见的模型,早在我没有挖ML这个坑...

word2vec原理推导与代码分析
自然语言处理

word2vec原理推导与代码分析

hankcs阅读(1405)评论(6)

本文摘录整编了一些理论介绍,推导了word2vec中的数学原理;并考察了一些常见的word2vec实现,评测其准确率等性能,最后分析了word2vec原版C代码;针对没有好用的Java实现的现状,移植了原版C程序到Java。时间和水平有限,...

基于信息熵和互信息的新词识别
自然语言处理

基于信息熵和互信息的新词识别

hankcs阅读(905)评论(11)

本文是《基于互信息和左右信息熵的短语提取识别》的姊妹篇,文如其名,没什么新意。 谈起“新词识别”“新词发现”,有许多论文慷慨陈词:要设计丰富的特征模板、建立训练语料库、引入CRF、ME、SVM、神经网络等模型并综合起来、在某某的基础上加入某...

EM算法及其推广
机器学习

EM算法及其推广

hankcs阅读(1053)评论(5)

本文是《统计学习方法》第九章的笔记,注解了原著的部分公式推导,补充了另一个经典的双硬币模型,并且注释了一份数十行的EM算法Python简明实现。 如果概率模型的变量都是观测变量(数据中可见的变量),则可以直接用极大似然估计,或者用贝叶斯估计...

提升方法
机器学习

提升方法

hankcs阅读(643)评论(1)

本文是《统计学习方法》第8章提升方法的笔记,整合了《机器学习实战》中的提升树Python代码,并添加了注解和PR值计算代码。《方法》重理论,但不易理解,《实战》重实践,但缺乏理论基础,特别是AdaBoost算法的解释、提升树与加法模型的关系...

我的开源项目

HanLP自然语言处理包基于DoubleArrayTrie的Aho Corasick自动机