2019最新的微博语料,可用于预训练语言模型Weibo-BERT词向量等。由于比较时新,对网络流行语的建模可能很有帮助。每个压缩包都有两千多万条,一共5个。大家下载之后也算是有一个亿身家的人了,激动吧。感兴趣的同学要不要训练个Weibo-BERT之类的,也算填补不规范文本的一大空白。
样本如下:
希望2019不要再zd了
一堆破事天天开会
//@夏目家的小诗哥:我信了[ok]//@镰刀刮腋毛:好的
这位兄弟你有事么?
十二月
//@夏目家的小诗哥:听歌要切换网易云QQ酷狗5SingB站虾米荔枝那么多[跪了]//@瞎无聊的小号:是啊 听两首歌切来切去//@风吹铃铛响叮叮:同一个愿望。//@江南大野花:隔一段时间不是这边灰了就是那边灰了,切来切去像在赶集
人这一生不要做自己后悔的事。
好看\(//∇//)\
那我必须得转一下了[哈哈][哈哈]
大鹅hhhhh
我也是这么觉得,但只是隐含地说了下。有些人真的太过了
不,是奶油味的\(//∇//)\
分为5个压缩包,每个压缩包解压后3个G的纯文本两千万条以上,合计一个亿。
下载须知:https://bbs.hankcs.com/t/topic/1297
仅面向论坛上的活跃研究者提供,伸手党勿扰,不必专门去注册账号。
下载地址: