放牧代码和思想
专注自然语言处理、机器学习算法
    Why join the Navy if you can be a pirate?

自然语言处理

依存句法分析在深度学习中的应用

依存句法分析在深度学习中的应用

hankcs阅读(281)评论(0)

句法分析是一项核心的NLP任务,目标是获取句子的主谓宾等句法结构。下级应用时,给定依存句法树,传统时代利用规则提取句法树的特征;在深度学习时代,如何提取树的向量表示?本文调研了7种常用模型,涵盖Tree RNN、DCNN和GCN等。 Tre...

语义依存分析SDP格式

语义依存分析SDP格式

hankcs阅读(2166)评论(1)

本文是对SDP格式的官方文档的举例说明。对句子: More than a few CEOs say the red-carpet treatment tempts them to return to a heartland city for...

中文语义依存分析语料库

中文语义依存分析语料库

hankcs阅读(4023)评论(3)

本文介绍语义依存的语言学知识以及BH中文语义依存语料库的标注规范。 给定一个句子,语义依存分析(Semantic Dependency Parsing,SDP)任务试图找出所有在语义上有所关联的词语对,并且预测相应的语义标签。在中文界,最有...

A Hierarchical Bayesian Language Model based on Pitman-Yor Processes

A Hierarchical Bayesian Language Model based on Pitman-Yor Processes

hankcs阅读(2913)评论(2)

这篇论文通过把unigram上的Pitman-Yor语言模型拓展到ngram,提出了一种新的平滑方法,同时在理论和试验上证明了有效性。 大部分概率语言模型都是$n$-gram模型,利用每个单词给定的$n-1$个上文单词预测该单词,并估计整个...

简单有效的多标准中文分词

简单有效的多标准中文分词

hankcs阅读(5451)评论(13)

本文介绍一种简洁优雅的多标准中文分词方案,可联合多个不同标准的语料库训练单个模型,同时输出多标准的分词结果。通过不同语料库之间的迁移学习提升模型的性能,在10个语料库上的联合试验结果优于绝大部分单独训练的模型。模型参数和超参数全部共享,复杂...

Deep Biaffine Attention for Neural Dependency Parsing

Deep Biaffine Attention for Neural Dependency Parsing

hankcs阅读(3576)评论(1)

这是斯坦福专攻Dependency Parsing的博士生Dozat在ICLR 2017上的论文,拿到了graph-based方法中的最高分,改进版还拿到了CoNLL 2017 Shared Task的第一。 基于图的依存句法分析需要解决两...

宾州树库和CTB的Python预处理脚本

宾州树库和CTB的Python预处理脚本

hankcs阅读(2940)评论(5)

在写句法分析器之前,通常需要将PTB和CTB预处理为: 一行一个句子,单文件; 符合规范比例的训练集/开发集/测试集; 去掉CTB中的xml标签,只保留句子,编码转换。 这些步骤很麻烦,因为通常bracketed的树形结构需要先解析才能转为...

深度学习中文分词调研

深度学习中文分词调研

hankcs阅读(4857)评论(19)

随着深度学习的普及,有越来越多的研究应用新模型到中文分词上,让人直呼“手快有,手慢无”。不过这些神经网络方法的真实水平如何?具体数值多少?以Sighan05中的PKU数据集为例,真像一些论文所言,一个LSTM-CRF就有96.5%吗?或者像...

CS224n笔记18 挑战深度学习与自然语言处理的极限

CS224n笔记18 挑战深度学习与自然语言处理的极限

hankcs阅读(5100)评论(0)

最后一课,总结了目前这两个领域中的难题,介绍了一些前沿研究:快16倍的QRNN、自动设计神经网络的NAS等。 深度学习已经漂亮地完成了许多单项任务,但如果我们继续随机初始化模型参数,我们永远也无法得到一个可以完全理解语言的系统。模型就像蒙住...

CS224n研究热点15 Neural Turing Machines

CS224n研究热点15 Neural Turing Machines

hankcs阅读(2010)评论(2)

    这次讲座覆盖了来自DeepMind的两篇论文: 第二篇是第一篇的轻微改进,这里只关注抽象思想。 问题  目前的神经网络擅长模式识别和动态决策,但无法使用知识进行深思或推断。比如明明可以胜任电子游戏这么复...

我的作品

HanLP自然语言处理包《自然语言处理入门》