放牧代码和思想
专注自然语言处理、机器学习算法
    时间有限,只有GitHub上的issue能及时处理,大约每周末一次。另外,不要叫我楼主,谢谢。

定个小目标,发它一个亿条微博语料

2019-10-23_22-25-36.png2019最新的微博语料,可用于预训练语言模型Weibo-BERT词向量等。由于比较时新,对网络流行语的建模可能很有帮助。每个压缩包都有两千多万条,一共5个。大家下载之后也算是有一个亿身家的人了,激动吧。感兴趣的同学要不要训练个Weibo-BERT之类的,也算填补不规范文本的一大空白。

样本如下:

希望2019不要再zd了

一堆破事天天开会

//@夏目家的小诗哥:我信了[ok]//@镰刀刮腋毛:好的

这位兄弟你有事么?

十二月

//@夏目家的小诗哥:听歌要切换网易云QQ酷狗5SingB站虾米荔枝那么多[跪了]//@瞎无聊的小号:是啊 听两首歌切来切去//@风吹铃铛响叮叮:同一个愿望。//@江南大野花:隔一段时间不是这边灰了就是那边灰了,切来切去像在赶集

人这一生不要做自己后悔的事。

好看\(//∇//)\

那我必须得转一下了[哈哈][哈哈]

大鹅hhhhh

我也是这么觉得,但只是隐含地说了下。有些人真的太过了

不,是奶油味的\(//∇//)\

2019-10-23_22-25-36.png

分为5个压缩包,每个压缩包解压后3个G的纯文本两千万条以上,合计一个亿。

下载地址:

  1. https://bbs.hankcs.com/t/topic/42

  2. https://bbs.hankcs.com/t/topic/67

  3. https://bbs.hankcs.com/t/topic/82

  4. https://bbs.hankcs.com/t/topic/98

  5. https://bbs.hankcs.com/t/topic/110

不搞虚的,屠龙宝刀,注册就送,不设密码,自由转载,仅供研究。

知识共享许可协议 知识共享署名-非商业性使用-相同方式共享码农场 » 定个小目标,发它一个亿条微博语料

分享到:更多 ()

评论 5

  • 昵称 (必填)
  • 邮箱 (必填)
  • 网址
  1. #4

    楼上的兄弟们,这个是美国大水管,国内很可能ping不通,科学上网

    lixiao23882周前 (11-02)回复
  2. #3

    网页打不开呀,大兄弟

    oneday2周前 (10-30)回复
  3. #2

    网页打开好慢呀。。。

    okhay2周前 (10-29)回复
  4. #1

    赞!

    faye3周前 (10-24)回复

我的作品

HanLP自然语言处理包《自然语言处理入门》