放牧代码和思想
专注自然语言处理、机器学习算法
    This thing called love. Know I would've. Thrown it all away. Wouldn't hesitate.

hankcs的文章

推荐几本好用的日语词典
日语教程

推荐几本好用的日语词典

阅读(143)评论(0)

曾经一直在PC上用EB软件,在mac上也用的是EBMac。EB格式的日语词典资源还算挺多的,就是版本比较旧。我一般挂载这些词典: 不过iOS上的EB就挺差,免费版还有广告。在iOS上,我更喜欢用欧路词典,免费版也没有广告。虽然词典跟EB不通...

简单有效的位置编码
机器学习

简单有效的位置编码

阅读(401)评论(0)

去年流行了一阵相对位置编码,各种巧夺天工的设计层出不穷,各有各的数学解释。然而谷歌这篇文章指出,相对位置并不优于绝对位置。之所以看上去更优是因为位置信息被加到了每一层注意力矩阵上,增大了矩阵的秩。其实我当时看这些论文的时候就很疑惑,这些论文...

#EMNLP21#抗噪自监督中文分词
中文分词

#EMNLP21#抗噪自监督中文分词

阅读(530)评论(0)

很久没有关注中文分词,今年恰好开会听了这篇清华领衔的长论文,分数相当不错。而且还引用了我的第一篇论文,于是简要介绍一下。虽然仰慕已久,但我与论文作者们并无私交。本文仅代表我的个人观点,如果有任何理解或表述错误,都是我的责任,与原作者无关。图...

#EMNLP21#干细胞假说:神经网络也具备干细胞难成全才
自然语言处理

#EMNLP21#干细胞假说:神经网络也具备干细胞难成全才

阅读(386)评论(0)

近来预训练语言模型在许多任务上成果斐然,然而在多任务联合学习上则差强人意。通过剪枝,我们发现所有任务会争夺一些通用的注意力头。据此,我们提出了干细胞假说:预训练会孕育一些天才注意力头,如同干细胞,可以分化为专精一种任务的功能细胞,却难以同时...

中文抽象意义表示简介
语料库

中文抽象意义表示简介

阅读(1233)评论(0)

上周收到LDC的订阅邮件,由布兰迪斯大学和南京师范大学联合标注的中文抽象意义表示语料库2.0(CAMR 2.0)发布了。于是第一时间下单购买,做一期开箱评测。 抽象意义表示(Abstract Meaning Representation,A...

HanLP 2.0 alpha版发布
自然语言处理

HanLP 2.0 alpha版发布

阅读(3205)评论(21)

面向生产环境的多语种自然语言处理工具包,基于 TensorFlow 2.0,目标是普及落地最前沿的NLP技术。HanLP具备功能完善、性能高效、架构清晰、语料时新、可自定义的特点。目前,基于深度学习的HanLP 2.0正处于alpha测试阶...

“原子”因果常识图谱
语料库

“原子”因果常识图谱

阅读(3166)评论(0)

AAAI19的论文(Sap et al. (2019))开源了一个包含87万条推理常识的知识图谱ATOMIC。相较于常见的基于本体论分类条目的知识图谱,该知识库专注于“如果…那么…”关系的知识。作者提出了9种类型的因果联系来区分原因-效果、...

梯度下降与海森矩阵
机器学习

梯度下降与海森矩阵

阅读(4061)评论(2)

理一理基础优化理论,解释一下深度学习中的一阶梯度下降遇到的病态曲率(pathological curvature)问题。当海森矩阵condition number很大时,一阶梯度下降收敛很慢,无论是对鞍点还是局部极值点而言都不是个好事。 鞍...

定个小目标,发它一个亿条微博语料
语料库

定个小目标,发它一个亿条微博语料

阅读(4377)评论(19)

2019最新的微博语料,可用于预训练语言模型Weibo-BERT词向量等。由于比较时新,对网络流行语的建模可能很有帮助。每个压缩包都有两千多万条,一共5个。大家下载之后也算是有一个亿身家的人了,激动吧。感兴趣的同学要不要训练个Weibo-B...

我的作品

HanLP自然语言处理包《自然语言处理入门》