码农场

放牧代码和思想
专注自然语言处理、机器学习算法
    博主不用扣扣,公事请博客留言,私事请微博私信。开源项目一律GitHub见,发错地方恕不回复,谢谢。

最新发布

Wu Manber多模式匹配算法
算法

Wu Manber多模式匹配算法

hankcs阅读(592)评论(2)

AC自动机中,转移的最小单位是一个字符。也就是说,匹配后只能移动一个字符,复杂度是线性的$O(n)$。然而线性并非最快,Boyer-Moore算法在匹配后可以跳过多个字符,比线性还快。据说在实践中,利用Boyer-Moore优化的AC自动机...

Structural Learning with Amortized Inference
机器学习

Structural Learning with Amortized Inference

hankcs阅读(526)评论(0)

Chang et al. 2015提出加速结构化学习的近似算法AI-DCD,通过缓存整数线性规划中相似的问题及解,减少对ILP solver的调用次数,从而加速训练,同时不损失精度。 平摊推断 记$\mathbf{y}=\{y_1,y_2,...

简单有效的多标准中文分词
中文分词

简单有效的多标准中文分词

hankcs阅读(1362)评论(9)

本文介绍一种简洁优雅的多标准中文分词方案,可联合多个不同标准的语料库训练单个模型,同时输出多标准的分词结果。通过不同语料库之间的迁移学习提升模型的性能,在10个语料库上的联合试验结果优于绝大部分单独训练的模型。模型参数和超参数全部共享,复杂...

宾州树库和CTB的Python预处理脚本
句法分析

宾州树库和CTB的Python预处理脚本

hankcs阅读(625)评论(3)

在写句法分析器之前,通常需要将PTB和CTB预处理为: 一行一个句子,单文件; 符合规范比例的训练集/开发集/测试集; 去掉CTB中的xml标签,只保留句子,编码转换。 这些步骤很麻烦,因为通常bracketed的树形结构需要先解析才能转为...

深度学习中文分词调研
中文分词

深度学习中文分词调研

hankcs阅读(2008)评论(18)

随着深度学习的普及,有越来越多的研究应用新模型到中文分词上,让人直呼“手快有,手慢无”。不过这些神经网络方法的真实水平如何?具体数值多少?以Sighan05中的PKU数据集为例,真像一些论文所言,一个LSTM-CRF就有96.5%吗?或者像...

CS224n笔记18 挑战深度学习与自然语言处理的极限
自然语言处理

CS224n笔记18 挑战深度学习与自然语言处理的极限

hankcs阅读(1931)评论(0)

最后一课,总结了目前这两个领域中的难题,介绍了一些前沿研究:快16倍的QRNN、自动设计神经网络的NAS等。 深度学习已经漂亮地完成了许多单项任务,但如果我们继续随机初始化模型参数,我们永远也无法得到一个可以完全理解语言的系统。模型就像蒙住...

CS224n研究热点15 Neural Turing Machines
自然语言处理

CS224n研究热点15 Neural Turing Machines

hankcs阅读(698)评论(2)

    这次讲座覆盖了来自DeepMind的两篇论文: 第二篇是第一篇的轻微改进,这里只关注抽象思想。 问题  目前的神经网络擅长模式识别和动态决策,但无法使用知识进行深思或推断。比如明明可以胜任电子游戏这么复...

CS224n笔记17 NLP存在的问题与未来的架构
自然语言处理

CS224n笔记17 NLP存在的问题与未来的架构

hankcs阅读(2084)评论(1)

课程介绍了各种各样的深度学习网络与应用,是时候从更高层次思考自然语言处理存在的问题与展望未来了。虽然BiLSTM与attention几乎统治了NLP,但在篇章级别的理解与推断上还不尽人意。 新时代人们正在“解决”语言  深度学习填...

我的开源项目

HanLP自然语言处理包基于DoubleArrayTrie的Aho Corasick自动机