CS224n研究热点4 词嵌入对传统方法的启发-码农场

hankcs.com 2017-06-15 下午9.15.54.png

主讲人是一位发音特别纯正的印度小哥，只有微量口音。这篇论文挑战了对神经网络的迷信，展示了传统模型的生命力以及调参的重要性。

词语表示方法

以前的课程中讲过两大类得到dense词语表示的方法，一般认为NN模型更好：

hankcs.com 2017-06-15 下午9.17.09.png

这里的PPMI也是一种利用共现矩阵的方法。

但Levy指出，超参数和实现细节比算法本身更重要：

hankcs.com 2017-06-15 下午9.18.33.png

有负例的采样个数，负采样算法中的平滑指数：

hankcs.com 2017-06-15 下午9.20.31.png

PMI中也有个类似负采样中的平滑指数的超参数：

hankcs.com 2017-06-15 下午9.28.49.png

试验证明，取$\frac{3}{4}$恰好能得到最好的效果。

另外在一种叫Shifted PMI的变种中，也有类似于负采样个数的超参数：

hankcs.com 2017-06-15 下午9.30.07.png

这些方法中，存在大量的超参数可供折腾：

hankcs.com 2017-06-15 下午9.31.59.png

将每种方法能调的超参数调到最佳，得到如下结果：

hankcs.com 2017-06-15 下午9.32.23.png

结果表示，没有性能稳定的方法，时而是count-based方法胜出，时而是NN方法胜出。