目录
算法+语料≈NLP
这是一个六千万词汇量的分类词库,做HanLP这么久,我逐渐体会到,算法无法解决所有问题,词库也非常重要。通常一个算法可以解决80%的问题,剩下的20%无论怎么调节优化,都是拆东墙补西墙。比如上次我提到的“区人保”被HMM人名识别模块误命中的例子,这个词让HMM来看,“区”作为姓氏,“人”“保”作为名字的二三字的确非常有可能,但是正常人都不会取这个名字。要是我把“人”“保”这两个字的频度降低或删除的话,“袭人”“王保全”这些名字又无法识别。
本来博客“自然语言处理”分类下就有“语料库”这一小类,不过一直没有分享什么,这次分享一个6千万词汇的巨型汉语词库。
目录
光目录就十分庞大,只贴出目录的一部分:
中国海洋大学青岛学院名人录.txt 中国海诚.txt 中国淡水鱼类名称.txt 中国烟名大全.txt 中国烟草名词.txt 中国理学总词库.txt 中国画专业词库.txt 中国疗养院名录.txt 中国的世界文化遗产名录.txt 中国相声师承关系族谱.txt 中国石化五建分包名单.txt 中国石油西北销售公司词库.txt 中国神仙表.txt 中国种子植物科属.txt 中国种子植物科属词典.txt 中国种子植物科属词典1.1.txt 中国科学技术大学.txt 中国科学技术大学【校园词库】.txt 中国科学院海洋研究所人名录.txt 中国科学院院士名.txt 中国移动 151.txt 中国移动专用词库.txt 中国移动业务专用.txt 中国移动安徽有限公司.txt 中国移动福建公司员工花名册.txt 中国网络作家.txt 中国职业名称大全.txt 中国联通福建分公司客服中心专用.txt 中国自唱歌曲.txt 中国自然保护区.txt 中国航油.txt 中国艺术家(音乐理论、表演类).txt 中国营口论坛-营口地方话词库.txt 中国著名演奏家.txt 中国观鸟年报-中国鸟类名录3.0.txt 中国计量学院.txt 中国象棋.txt 中国象棋常用词汇.txt 中国象棋红方走法大全.txt 中国财税管理咨询网.txt 中国近代历史名人.txt 中国野鸟名录.txt 中国钢厂名称库.txt 中国铁路名词.txt 中国银行.txt 中国银行快速录入.txt 中国音乐学院音乐考级山东考区人名2010年.txt 中国音乐文化词库.txt 中国风景名胜.txt 中国高等教育名录数据库.txt 中国高等院校(大学)大全【官方推荐】.txt
全部目录请下载:千万级巨型汉语词库【目录】.zip
举个例子
推荐一些优秀的词库,比如:
四十万汉语大词库.txt
吖吖 吖啶 阿Q正传 阿阿 阿八 阿巴拉契亚山脉 阿爸 阿傍 阿谤 阿保 阿保之功 阿保之劳 阿本郎 阿鼻 阿鼻地狱 阿鼻鬼 阿鼻叫唤 阿鼻狱 阿比 阿比让 阿辟 阿避 阿柄 阿炳 阿波罗 阿波罗计划 阿伯 阿步干 阿茶 阿谄 阿昌族 阿叱 阿閦 阿从 阿达 阿大 阿呆 阿党 阿党比周 阿党相为 阿的 阿的平 阿等 阿弟 阿殿 阿爹 阿斗 阿阇 阿阇梨
自然语言处理及计算语言学相关术语.txt
隐式马可夫模型 阶层结构层次结构 单词句 同形异义词 同音异义词 同音词 同音异义 同部位音的 子句 人机界面 上位词 超文件超文本 下位词 主从结构的 直接成份 讯息为本的格位语法 成语熟语 特异性 施为性 直接成份 祈使句 蕴含谓词 含意 标引的 间接宾语 间接言谈行动间接言语行为 归纳推理 推理机器 不定词不定式 中缀 屈折变化 屈折词缀 资讯撷取 资讯处理信息处理 资讯检索 资讯理论信息论 固有特征 继承 继承 继承阶层继承层次 属性继承 语法天生假说 中插 里里外外演算法 体现 工具格 集成句法剖析程式
金融专业相关词.txt
安全投资原则 安全系数 安全性 安全钥匙 安全运作 安全责任 安泰集团 安泰科技 安泰授信有限公司 安田信托 安田信托银行 安徒生童话精选 安慰信 安慰信函 安新私人銀行有限 安信信托 安阳钢铁 安永 安永会计师事务 安永会计师事务所 安源股份 安装费 氨基酸序列 鞍钢股份 按百分率 按百分率收取 按百分率收取的费 按镑收费额 按保密专利申请处理 按比例 按比例分配 按比例分摊 按成本 按成本计价 按成本计算 按当时价格计算 按当时市价计算 按法律规定 按份共有 按付款当日价格 按付款当日价格计 按固定价格计算 按固定价格计算的 按固定市价计算 按貨幣計算 按级别攀升 按计划
这个做领域词库比较好。
新亚洲人名库.txt
蔡碧虹 蔡碧野 蔡碧瑜 蔡斌 蔡冰川 蔡炳兴 蔡昌彬 蔡长丰 蔡长志 蔡常珍 蔡超超 蔡成波 蔡成香 蔡春英 蔡淳 蔡淳佳 蔡翠玲 蔡翠妮 蔡戴群 蔡德文 蔡德正 蔡东河 蔡冬梅 蔡笃强 蔡方燕 蔡飞英 蔡妃 蔡菲 蔡枫华
这个做人名识别比较好。
政府机关团体机构大全【官方推荐】.txt
质量技术监督局 纪律检查委员会 机关事务管理局 国家知识产权局 最高人民检察院 河北教育考试院 国家外汇管理局 人民政府办公厅 计划生育服务站 科学技术委员会 中华全国总工会 北京市人民政府 国家烟草专卖局 长江水利委员会 黄河水利委员会 市中级人民法院 河北省人民政府 市政工程管理处 环境卫生管理处 社区居民委员会 四川石油管理局 工业园区管委会 黑龙江省教育厅 华北石油管理局 中国美术家协会 市政管理委员会 哈尔滨市公安局 机动车辆管理所 辽宁省人民政府
这个做机构实体识别比较好。
一些奇葩词库
这个都能有……
下载地址
版权原因,不再公开。
版权
这些词库是自己抓下来的,具体从哪里抓的就不说了,仅供个人研究学习用。
失效的链接,可以在https://blog.csdn.net/datawind887/article/details/94454034中的网盘下载。感谢大神~~
链接失效了,有大佬可以给我邮箱发一份吗,万分感激:andglf@163.com
下载不了,请问可以再分享一下吗?873012808@qq.com,感谢大神~~
谁还有这份资料可以分享一下吗?谢谢,1832044043@qq.com
https://blog.csdn.net/datawind887/article/details/94454034
短文本分类 一般怎么处理比较好 ,文本内容偏新闻咨询的通知消息
链接地址都失效了,能再发一下吗,谢谢
感谢楼主
可以打赏吗
baidu pan上的文件没有了。可否再上传一次,谢谢
可以下载
感谢分享。
谢谢 分享, 赞!!
最近看到网上另一个词库分享, 但是里面的字段格式不太能理解, 不知道楼主是否可以指点一下呢?
http://down.51cto.com/data/269758
档案字段格式长这样:
1 扭在 nz 6ff026e67cc327c2 2 930 1 0 3
2 拟在 nz 3ad73d9dc29b7c54 2 10092 0 0 3
3 捻针 nz 52w76148h1f9cei9 2 308 1 0 3
4 怒发冲冠 nfcg 9jue6c3a96b5eoif 4 9313 1 0 3
5 农副产品 nfcp adc3aa31df8f47dd 4 7450 1 0 3
6 女房东 nfd 78foi563e45ga896 3 7108 1 0 3
7 暖风机 nfj bbe96g73c89c3298 3 5116 1 0 3
8 年富力强 nflq 6df5a2e8ba64c9a3 4 13740 1 0 3
9 逆耳忠言 nezy 8h65g473e5e5g52e 4 2285 1 0 3
10 难分难解 nfnj 47a6ce306f3i3d2w 4 7382 1 0 3
11 难分难舍 nfns 7i3eb71865g69aa5 4 6718 1 0 3
12 闹翻天 nft cbe4d1c47ie345a2 3 2694 1 0 3
13 女服务员 nfwy a9cc81f8f08fac43 4 12386 1 0 3
14 逆反心理 nfxl a3i3ba1d2a8ed348 4 6096 1 0 3
15 农副业 nfy c1969cd63ic682bb 3 5468 1 0 3
16 年复一年 nfyn fd18eb2b7afbc1ed 4 27804 1 0 3
谢谢博主!虽然需要手工整理一下才能适用自己的项目,但是感觉非常有用!
66666666
我来拆个台,听缩搜狗词库和QQ拼音词库用几十行Java代码就能转成TXT啊【→_→】
用那个深蓝转换软件~~
感觉像是从搜狗输入法词库抓取的- –
非常感谢
下载的词库,可以用作领域词库的补充、完善。向博主学习!
这汉语词库文件这么多,下载后怎么用起来呢??能当核心词典吗??那加载会不会N久??希望博主解疑答惑哈,非常感谢!
不能当核心词典,只能当http://www.hankcs.com/nlp/hanlp.html#h3-11 ,不要贪心,只挑你用得上的词典,1秒钟内差不多了
我看汉语词库解压了有400多M,博主的核心字典猜2.20M,主要存放什么呢?那信息不是很不全??会不会导致分词的准确性严重下降呢? 。刚研究这块的东西哈,所以问题比较多,博主莫怪哈!
现代汉语常用词汇大约5万个,核心词典来自2014年人民日报,一共35万。一些不常用的词汇就靠自定义词典解决,词典不是越大越好,按专业领域加载不同的领域词典就行了。
关键一个专业领域涉及到的领域词典就很多了,我刚看了下载的千万级汉语词库里面,关于医疗行业的文件我看到的就80几个了,那只能都加到自定义词典解决了吗?
对,肯定有重复的,你写个程序合并成一个文件就行了
thanks !
http://www.hankcs.com解压密码暴露了来源
谢谢 分享, 赞
赞啊!
秒赞~~
赞一下。
点个赞,持续关注中。