中文分词

#EMNLP21#抗噪自监督中文分词

2021-11-08阅读(7011)评论(2)

很久没有关注中文分词，今年恰好开会听了这篇清华领衔的长论文，分数相当不错。而且还引用了我的第一篇论文，于是简要介绍一下。虽然仰慕已久，但我与论文作者们并无私交。本文仅代表我的个人观点，如果有任何理解或表述错误，都是我的责任，与原作者无关。图...

2017-12-11阅读(15070)评论(16)

本文介绍一种简洁优雅的多标准中文分词方案，可联合多个不同标准的语料库训练单个模型，同时输出多标准的分词结果。通过不同语料库之间的迁移学习提升模型的性能，在10个语料库上的联合试验结果优于绝大部分单独训练的模型。模型参数和超参数全部共享，复杂...

2017-08-10阅读(10303)评论(19)

随着深度学习的普及，有越来越多的研究应用新模型到中文分词上，让人直呼“手快有，手慢无”。不过这些神经网络方法的真实水平如何？具体数值多少？以Sighan05中的PKU数据集为例，真像一些论文所言，一个LSTM-CRF就有96.5%吗？或者像...

2016-09-12阅读(7791)评论(0)

最近高产似母猪，写了个基于AP的中文分词器，在Bakeoff-05的MSR语料上F值有96.11%。最重要的是，只训练了5个迭代；包含语料加载等IO操作在内，整个训练一共才花费23秒。应用裁剪算法去掉模型中80%的特征后，F值才下降不到0....

2015-08-23阅读(11401)

以前发布过HanLP的Lucene插件，后来很多人跟我说其实Solr更流行（反正我是觉得既然Solr是Lucene的子项目，那么稍微改改配置就能支持Solr），于是就抽空做了个Solr插件出来，开源在Github上，欢迎改进。 HanLP中...

2015-05-07阅读(9196)评论(12)

谈起基于Character-Based Generative Model的中文分词方法，普遍的印象是在Bakeoff上的成绩好，对OOV的识别率高。HanLP中实现的CRF分词器其实就是这种原理的分词器，然而CRF分词缺点也是很明显的：一...

2015-04-30阅读(11379)评论(9)

前段时间开源了基于双数组Trie树的Aho Corasick自动机，当时认为在中文分词中，ACDAT应该能秒杀DAT。今天优化了DAT的多模式匹配后，竟然得出了意外的结果。当初的DAT实现中，为了支持多模式匹配，我写了一个Searcher...

2014-12-10阅读(18452)评论(20)

与基于隐马尔可夫模型的最短路径分词、N-最短路径分词相比，基于条件随机场（CRF）的分词对未登录词有更好的支持。本文（HanLP）使用纯Java实现CRF模型的读取与维特比后向解码，内部特征函数采用双数组Trie树(Double...

2014-11-19阅读(43664)评论(51)

词性标注（Part-of-Speech tagging 或POS tagging)，又称词类标注或者简称标注，是指为分词结果中的每个单词标注一个正确的词性的程序，也即确定每个词是名词、动词、形容词或其他词性的过程。在汉语中，词性标注比较简单...

2014-05-27阅读(11811)评论(1)

本文主要从代码的角度分析标注过程中的细节，理论谁都能说，但没几人能做出一个实用高效的系统。在得出粗分结果之后，需要对其进行人名、翻译人名、地名识别，然后重新KSP得出最终结果，在ICTCLAS中，这些标注都是通过HMM模型实现的。人名识别...