放牧代码和思想
专注自然语言处理、机器学习算法
    正处于一个非常忙的阶段,抱歉不会经常回应任何联络

千万级巨型汉语词库分享

目录

算法+语料≈NLP

这是一个六千万词汇量的分类词库,做HanLP这么久,我逐渐体会到,算法无法解决所有问题,词库也非常重要。通常一个算法可以解决80%的问题,剩下的20%无论怎么调节优化,都是拆东墙补西墙。比如上次我提到的“区人保”被HMM人名识别模块误命中的例子,这个词让HMM来看,“区”作为姓氏,“人”“保”作为名字的二三字的确非常有可能,但是正常人都不会取这个名字。要是我把“人”“保”这两个字的频度降低或删除的话,“袭人”“王保全”这些名字又无法识别。

本来博客“自然语言处理”分类下就有“语料库”这一小类,不过一直没有分享什么,这次分享一个6千万词汇的巨型汉语词库。

目录

光目录就十分庞大,只贴出目录的一部分:

    中国海洋大学青岛学院名人录.txt
    中国海诚.txt
    中国淡水鱼类名称.txt
    中国烟名大全.txt
    中国烟草名词.txt
    中国理学总词库.txt
    中国画专业词库.txt
    中国疗养院名录.txt
    中国的世界文化遗产名录.txt
    中国相声师承关系族谱.txt
    中国石化五建分包名单.txt
    中国石油西北销售公司词库.txt
    中国神仙表.txt
    中国种子植物科属.txt
    中国种子植物科属词典.txt
    中国种子植物科属词典1.1.txt
    中国科学技术大学.txt
    中国科学技术大学【校园词库】.txt
    中国科学院海洋研究所人名录.txt
    中国科学院院士名.txt
    中国移动 151.txt
    中国移动专用词库.txt
    中国移动业务专用.txt
    中国移动安徽有限公司.txt
    中国移动福建公司员工花名册.txt
    中国网络作家.txt
    中国职业名称大全.txt
    中国联通福建分公司客服中心专用.txt
    中国自唱歌曲.txt
    中国自然保护区.txt
    中国航油.txt
    中国艺术家(音乐理论、表演类).txt
    中国营口论坛-营口地方话词库.txt
    中国著名演奏家.txt
    中国观鸟年报-中国鸟类名录3.0.txt
    中国计量学院.txt
    中国象棋.txt
    中国象棋常用词汇.txt
    中国象棋红方走法大全.txt
    中国财税管理咨询网.txt
    中国近代历史名人.txt
    中国野鸟名录.txt
    中国钢厂名称库.txt
    中国铁路名词.txt
    中国银行.txt
    中国银行快速录入.txt
    中国音乐学院音乐考级山东考区人名2010年.txt
    中国音乐文化词库.txt
    中国风景名胜.txt
    中国高等教育名录数据库.txt
    中国高等院校(大学)大全【官方推荐】.txt

全部目录请下载:千万级巨型汉语词库【目录】.zip

举个例子

推荐一些优秀的词库,比如:

四十万汉语大词库.txt

吖吖
吖啶
阿Q正传
阿阿
阿八
阿巴拉契亚山脉
阿爸
阿傍
阿谤
阿保
阿保之功
阿保之劳
阿本郎
阿鼻
阿鼻地狱
阿鼻鬼
阿鼻叫唤
阿鼻狱
阿比
阿比让
阿辟
阿避
阿柄
阿炳
阿波罗
阿波罗计划
阿伯
阿步干
阿茶
阿谄
阿昌族
阿叱
阿閦
阿从
阿达
阿大
阿呆
阿党
阿党比周
阿党相为
阿的
阿的平
阿等
阿弟
阿殿
阿爹
阿斗
阿阇
阿阇梨

自然语言处理及计算语言学相关术语.txt

隐式马可夫模型
阶层结构层次结构
单词句
同形异义词
同音异义词
同音词
同音异义
同部位音的
子句
人机界面
上位词
超文件超文本
下位词
主从结构的
直接成份
讯息为本的格位语法
成语熟语
特异性
施为性
直接成份
祈使句
蕴含谓词
含意
标引的
间接宾语
间接言谈行动间接言语行为
归纳推理
推理机器
不定词不定式
中缀
屈折变化
屈折词缀
资讯撷取
资讯处理信息处理
资讯检索
资讯理论信息论
固有特征
继承
继承
继承阶层继承层次
属性继承
语法天生假说
中插
里里外外演算法
体现
工具格
集成句法剖析程式

金融专业相关词.txt

安全投资原则
安全系数
安全性
安全钥匙
安全运作
安全责任
安泰集团
安泰科技
安泰授信有限公司
安田信托
安田信托银行
安徒生童话精选
安慰信
安慰信函
安新私人銀行有限
安信信托
安阳钢铁
安永
安永会计师事务
安永会计师事务所
安源股份
安装费
氨基酸序列
鞍钢股份
按百分率
按百分率收取
按百分率收取的费
按镑收费额
按保密专利申请处理
按比例
按比例分配
按比例分摊
按成本
按成本计价
按成本计算
按当时价格计算
按当时市价计算
按法律规定
按份共有
按付款当日价格
按付款当日价格计
按固定价格计算
按固定价格计算的
按固定市价计算
按貨幣計算
按级别攀升
按计划

这个做领域词库比较好。

新亚洲人名库.txt

蔡碧虹
蔡碧野
蔡碧瑜
蔡斌
蔡冰川
蔡炳兴
蔡昌彬
蔡长丰
蔡长志
蔡常珍
蔡超超
蔡成波
蔡成香
蔡春英
蔡淳
蔡淳佳
蔡翠玲
蔡翠妮
蔡戴群
蔡德文
蔡德正
蔡东河
蔡冬梅
蔡笃强
蔡方燕
蔡飞英
蔡妃
蔡菲
蔡枫华

这个做人名识别比较好。

政府机关团体机构大全【官方推荐】.txt

质量技术监督局
纪律检查委员会
机关事务管理局
国家知识产权局
最高人民检察院
河北教育考试院
国家外汇管理局
人民政府办公厅
计划生育服务站
科学技术委员会
中华全国总工会
北京市人民政府
国家烟草专卖局
长江水利委员会
黄河水利委员会
市中级人民法院
河北省人民政府
市政工程管理处
环境卫生管理处
社区居民委员会
四川石油管理局
工业园区管委会
黑龙江省教育厅
华北石油管理局
中国美术家协会
市政管理委员会
哈尔滨市公安局
机动车辆管理所
辽宁省人民政府

这个做机构实体识别比较好。

一些奇葩词库

这个都能有……

下载地址

http://pan.baidu.com/s/10anmu

解压密码:www.hankcs.com

版权

这些词库是自己抓下来的,具体从哪里抓的就不说了,仅供个人研究学习用。

知识共享许可协议 知识共享署名-非商业性使用-相同方式共享码农场 » 千万级巨型汉语词库分享

分享到:更多 ()

评论 22

  • 昵称 (必填)
  • 邮箱 (必填)
  • 网址
  1. #16

    感谢分享。

    hain5个月前 (06-25)回复
  2. #15

    谢谢 分享, 赞!!
    最近看到网上另一个词库分享, 但是里面的字段格式不太能理解, 不知道楼主是否可以指点一下呢?
    http://down.51cto.com/data/269758
    档案字段格式长这样:
    1 扭在 nz 6ff026e67cc327c2 2 930 1 0 3
    2 拟在 nz 3ad73d9dc29b7c54 2 10092 0 0 3
    3 捻针 nz 52w76148h1f9cei9 2 308 1 0 3
    4 怒发冲冠 nfcg 9jue6c3a96b5eoif 4 9313 1 0 3
    5 农副产品 nfcp adc3aa31df8f47dd 4 7450 1 0 3
    6 女房东 nfd 78foi563e45ga896 3 7108 1 0 3
    7 暖风机 nfj bbe96g73c89c3298 3 5116 1 0 3
    8 年富力强 nflq 6df5a2e8ba64c9a3 4 13740 1 0 3
    9 逆耳忠言 nezy 8h65g473e5e5g52e 4 2285 1 0 3
    10 难分难解 nfnj 47a6ce306f3i3d2w 4 7382 1 0 3
    11 难分难舍 nfns 7i3eb71865g69aa5 4 6718 1 0 3
    12 闹翻天 nft cbe4d1c47ie345a2 3 2694 1 0 3
    13 女服务员 nfwy a9cc81f8f08fac43 4 12386 1 0 3
    14 逆反心理 nfxl a3i3ba1d2a8ed348 4 6096 1 0 3
    15 农副业 nfy c1969cd63ic682bb 3 5468 1 0 3
    16 年复一年 nfyn fd18eb2b7afbc1ed 4 27804 1 0 3

    James7个月前 (04-20)回复
  3. #14

    谢谢博主!虽然需要手工整理一下才能适用自己的项目,但是感觉非常有用!

    右右小坏蛋1年前 (2016-08-26)回复
  4. #13

    66666666

    阿卜杜拉_Snake1年前 (2016-08-15)回复
  5. #12

    我来拆个台,听缩搜狗词库和QQ拼音词库用几十行Java代码就能转成TXT啊【→_→】

    泽远1年前 (2016-05-27)回复
    • 用那个深蓝转换软件~~

      dofine8个月前 (03-22)回复
  6. #11

    感觉像是从搜狗输入法词库抓取的- –

    茄子西瓜科学番茄2年前 (2016-01-16)回复
  7. #10

    非常感谢

    尤一2年前 (2015-12-17)回复
  8. #9

    下载的词库,可以用作领域词库的补充、完善。向博主学习!

    sebarzi2年前 (2015-06-09)回复
  9. #8

    这汉语词库文件这么多,下载后怎么用起来呢??能当核心词典吗??那加载会不会N久??希望博主解疑答惑哈,非常感谢!

    • 不能当核心词典,只能当http://www.hankcs.com/nlp/hanlp.html#h3-11 ,不要贪心,只挑你用得上的词典,1秒钟内差不多了

      hankcs3年前 (2015-04-27)回复
      • 我看汉语词库解压了有400多M,博主的核心字典猜2.20M,主要存放什么呢?那信息不是很不全??会不会导致分词的准确性严重下降呢? [可爱] 。刚研究这块的东西哈,所以问题比较多,博主莫怪哈!

        • 现代汉语常用词汇大约5万个,核心词典来自2014年人民日报,一共35万。一些不常用的词汇就靠自定义词典解决,词典不是越大越好,按专业领域加载不同的领域词典就行了。

          hankcs3年前 (2015-04-27)回复
          • 关键一个专业领域涉及到的领域词典就很多了,我刚看了下载的千万级汉语词库里面,关于医疗行业的文件我看到的就80几个了,那只能都加到自定义词典解决了吗?

            白驹过隙_过眼云烟3年前 (2015-04-27)
          • 对,肯定有重复的,你写个程序合并成一个文件就行了

            hankcs3年前 (2015-04-27)
  10. #7

    thanks !

    sk4130253年前 (2015-03-08)回复
  11. #6
  12. #5

    谢谢 分享, 赞

    王石头_20103年前 (2015-02-07)回复
  13. #4

    赞啊!

    ZeyuT_T3年前 (2015-02-05)回复
  14. #3

    秒赞~~

    鍫民-贵子3年前 (2015-01-23)回复
  15. #2

    赞一下。

    VRer3年前 (2014-11-19)回复
  16. #1

    点个赞,持续关注中。

    搬书尊者3年前 (2014-11-17)回复

我的开源项目

HanLP自然语言处理包基于DoubleArrayTrie的Aho Corasick自动机