2021年11月的文章

简单有效的位置编码

2021-11-27阅读(7330)评论(0)

去年流行了一阵相对位置编码，各种巧夺天工的设计层出不穷，各有各的数学解释。然而谷歌这篇文章指出，相对位置并不优于绝对位置。之所以看上去更优是因为位置信息被加到了每一层注意力矩阵上，增大了矩阵的秩。其实我当时看这些论文的时候就很疑惑，这些论文...

2021-11-08阅读(8927)评论(2)

很久没有关注中文分词，今年恰好开会听了这篇清华领衔的长论文，分数相当不错。而且还引用了我的第一篇论文，于是简要介绍一下。虽然仰慕已久，但我与论文作者们并无私交。本文仅代表我的个人观点，如果有任何理解或表述错误，都是我的责任，与原作者无关。图...

2021-11-07阅读(7219)评论(0)

近来预训练语言模型在许多任务上成果斐然，然而在多任务联合学习上则差强人意。通过剪枝，我们发现所有任务会争夺一些通用的注意力头。据此，我们提出了干细胞假说：预训练会孕育一些天才注意力头，如同干细胞，可以分化为专精一种任务的功能细胞，却难以同时...

2021-11-04阅读(11751)评论(11)

今天我的MBP M1MAX终于寄到了，于是第一时间为HanLP提供M1的原生CPU+GPU支持。MBP用户从此享受到GPU加速的推理与训练，微调个BERT同样丝滑。本文简要介绍原生环境搭建与安装，适用于包括M1系列在内的Apple Sili...