放牧代码和思想
专注自然语言处理、机器学习算法
    愛しさ 優しさ すべて投げ出してもいい

定个小目标,发它一个亿条微博语料

2019-10-23_22-25-36.png2019最新的微博语料,可用于预训练语言模型Weibo-BERT词向量等。由于比较时新,对网络流行语的建模可能很有帮助。每个压缩包都有两千多万条,一共5个。大家下载之后也算是有一个亿身家的人了,激动吧。感兴趣的同学要不要训练个Weibo-BERT之类的,也算填补不规范文本的一大空白。

样本如下:

希望2019不要再zd了

一堆破事天天开会

//@夏目家的小诗哥:我信了[ok]//@镰刀刮腋毛:好的

这位兄弟你有事么?

十二月

//@夏目家的小诗哥:听歌要切换网易云QQ酷狗5SingB站虾米荔枝那么多[跪了]//@瞎无聊的小号:是啊 听两首歌切来切去//@风吹铃铛响叮叮:同一个愿望。//@江南大野花:隔一段时间不是这边灰了就是那边灰了,切来切去像在赶集

人这一生不要做自己后悔的事。

好看\(//∇//)\

那我必须得转一下了[哈哈][哈哈]

大鹅hhhhh

我也是这么觉得,但只是隐含地说了下。有些人真的太过了

不,是奶油味的\(//∇//)\

2019-10-23_22-25-36.png

分为5个压缩包,每个压缩包解压后3个G的纯文本两千万条以上,合计一个亿。

下载须知:https://bbs.hankcs.com/t/topic/1297 

仅面向论坛上的活跃研究者提供,伸手党勿扰,不必专门去注册账号。

下载地址:

  1. https://bbs.hankcs.com/t/topic/42

  2. https://bbs.hankcs.com/t/topic/67

  3. https://bbs.hankcs.com/t/topic/82

  4. https://bbs.hankcs.com/t/topic/98

  5. https://bbs.hankcs.com/t/topic/110

知识共享许可协议 知识共享署名-非商业性使用-相同方式共享码农场 » 定个小目标,发它一个亿条微博语料

我的作品

HanLP自然语言处理包《自然语言处理入门》