放牧代码和思想
专注自然语言处理、机器学习算法
    恕不接待索要源码语料者、索求技术方案者、以及不Google的懒人。

CS224n研究热点3 高效文本分类的锦囊妙计

目录

hankcs.com 2017-06-10 下午9.24.11.png

Facebook的fastText 

文本分类是NLP中常见的任务,比如情感分析:

hankcs.com 2017-06-10 下午9.23.57.png

词袋模型

虽然词袋模型只是所有词向量的某种平均,但其维度可以做到很低:

hankcs.com 2017-06-10 下午9.25.16.png

为了抵抗词序丢失带来的语义丢失问题,可以用ngram特征来代替。

简单的线性模型

这并不是神经网络,因为从输入到隐藏层只是一个look-up table,而隐藏层到输出则是一个逻辑斯谛回归线性分类器。

hankcs.com 2017-06-10 下午9.28.56.png

训练

用交叉熵作为损失函数:

hankcs.com 2017-06-10 下午9.29.57.png

Hierarchical softmax

与其用一个超大的softmax层,不如用多个Hierarchical softmax:

hankcs.com 2017-06-10 下午9.31.34.png

类似于http://www.hankcs.com/nlp/word2vec.html#h2-3 ,可以提高效率。

效果与速度

效果与最好的神经网络模型相差无几,但训练速度非常快:

hankcs.com 2017-06-10 下午9.34.41.png

总结

  • fastText常常可以跟深度神经网络分类器打平。

  • 但训练速度只需几秒,而不是几天。

  • 还可以学习多种语言的词向量(效果比word2vec还要好)。

知识共享许可协议 知识共享署名-非商业性使用-相同方式共享码农场 » CS224n研究热点3 高效文本分类的锦囊妙计

分享到:更多 ()

评论 欢迎留言

  • 昵称 (必填)
  • 邮箱 (必填)
  • 网址

我的开源项目

HanLP自然语言处理包基于DoubleArrayTrie的Aho Corasick自动机