放牧代码和思想
专注自然语言处理、机器学习算法
    This thing called love. Know I would've. Thrown it all away. Wouldn't hesitate.

CS224n研究热点4 词嵌入对传统方法的启发

目录

hankcs.com 2017-06-15 下午9.15.54.png

主讲人是一位发音特别纯正的印度小哥,只有微量口音。这篇论文挑战了对神经网络的迷信,展示了传统模型的生命力以及调参的重要性。

词语表示方法

以前的课程中讲过两大类得到dense词语表示的方法,一般认为NN模型更好:

hankcs.com 2017-06-15 下午9.17.09.png

这里的PPMI也是一种利用共现矩阵的方法。

但Levy指出,超参数和实现细节比算法本身更重要:

hankcs.com 2017-06-15 下午9.18.33.png

Skip-Gram中的超参数

有负例的采样个数,负采样算法中的平滑指数:

hankcs.com 2017-06-15 下午9.20.31.png

对PMI的启发

PMI中也有个类似负采样中的平滑指数的超参数:

hankcs.com 2017-06-15 下午9.28.49.png

试验证明,取$\frac{3}{4}$恰好能得到最好的效果。

另外在一种叫Shifted PMI的变种中,也有类似于负采样个数的超参数:

hankcs.com 2017-06-15 下午9.30.07.png

可调超参数一览表

这些方法中,存在大量的超参数可供折腾:

hankcs.com 2017-06-15 下午9.31.59.png

调参结果

将每种方法能调的超参数调到最佳,得到如下结果:

hankcs.com 2017-06-15 下午9.32.23.png

结果表示,没有性能稳定的方法,时而是count-based方法胜出,时而是NN方法胜出。

结论

  • 这篇文章挑战了人们对NN模型的迷信,展示了NN模型并不一定比传统模型好。

  • 虽然模型设计很重要,要想拿到好的效果,调参也非常非常重要。

  • 不要迷信,要勇于挑战流行的论点(小哥认为词的向量表示领域还有很大的探索空间)。

知识共享许可协议 知识共享署名-非商业性使用-相同方式共享码农场 » CS224n研究热点4 词嵌入对传统方法的启发

评论 欢迎留言

  • 昵称 (必填)
  • 邮箱 (必填)
  • 网址

我的作品

HanLP自然语言处理包《自然语言处理入门》