放牧代码和思想
专注自然语言处理、机器学习算法

CS224n研究热点2 词语义项的线性代数结构与词义消歧

目录

hankcs.com 2017-06-08 下午8.29.40.png

词向量本身无法解决一词多义的问题,比如:

hankcs.com 2017-06-08 下午7.49.02.png

这里的tie可能表示球赛的平局,也可能表示领带,还可能表示绳子打结。那它的词向量究竟在哪里呢?

虽然相似的词被映射到邻近的位置,但该论文证明词向量是所有义项的平均:

hankcs.com 2017-06-08 下午7.54.32.png

它被映射到这些词语的中央,这有什么用呢,可以复原它的所有义项吗?

复原

研究发现义项是由如下sparse coding编码:

hankcs.com 2017-06-08 下午7.58.28.png

这里的$A$是类似于sports之类的Context vectors(或说义项的vector),$\alpha$是某个Context vector的系数(hard sparsity constraint)。论文中说这些参数可以通过标准k-SVD算法求出。

复原结果

hankcs.com 2017-06-08 下午8.03.52.png

量化评测

是请了各国的研究生与该方法一起作为实验对象,做如下的题目:

hankcs.com 2017-06-08 下午8.06.51.png

问他们这些词语与某个词是否相关,计算PR值。结果证明,这种方法可以达到non-native speaker的水平。

hankcs.com 2017-06-08 下午8.08.48.png

总结

词向量是多个义项的叠加。通过复原方法,可以通过sparse coding的k-SVD算法复原词向量中的所有义项。复原水平达到non-native English speakers的水准。

知识共享许可协议 知识共享署名-非商业性使用-相同方式共享码农场 » CS224n研究热点2 词语义项的线性代数结构与词义消歧

分享到:更多 ()

评论 欢迎留言

  • 昵称 (必填)
  • 邮箱 (必填)
  • 网址

我的开源项目

HanLP自然语言处理包基于DoubleArrayTrie的Aho Corasick自动机