放牧代码和思想
专注自然语言处理、机器学习算法
    愛しさ 優しさ すべて投げ出してもいい

hankcs的文章

第26页
依存句法分析器的简单实现
句法分析

依存句法分析器的简单实现

阅读(15590)评论(22)

早期博文含有大量错误,见谅。关于最大生成树句法分析器,请参考 Non-projective Dependency Parsing using Spanning Tree Algorithms 生成式句法分析指的是,生成一系列依存句法树,从它...

汉语树库
语料库

汉语树库

阅读(22968)评论(14)

本文旨在介绍CoNLL格式的中文依存语料库(汉语依存树库)、CoNLL格式相关工具,以及提供两个公开的中文依存语料库下载。 最近做完了分词、词性标注、命名实体识别、关键词提取、自动摘要、拼音、简繁转换、文本推荐,感觉HanLP初具雏形。现在...

词性标注
中文分词

词性标注

阅读(47475)评论(51)

词性标注(Part-of-Speech tagging 或POS tagging),又称词类标注或者简称标注,是指为分词结果中的每个单词标注一个正确的词性的程序,也即确定每个词是名词、动词、形容词或其他词性的过程。在汉语中,词性标注比较简单...

层叠HMM-Viterbi角色标注模型下的机构名识别
命名实体识别

层叠HMM-Viterbi角色标注模型下的机构名识别

阅读(15335)评论(25)

命名实体识别中最难的部分当属实体机构名了,这是因为机构名的组成成分十分复杂,可以是人名、地名、序数词、企业字号甚至是上级机构名。本文介绍一种基于角色标注的层叠HMM模型下中文机构名识别方法。目前代码已整合到HanLP中,即将开源。 开源项目...

实战HMM-Viterbi角色标注地名识别
命名实体识别

实战HMM-Viterbi角色标注地名识别

阅读(17946)评论(17)

命名实体识别(Named Entity Recognition)也是自然语言处理中的一个难关,特别是中文这样没有大小写等固定形态的语言。上次介绍过《实战HMM-Viterbi角色标注中国人名识别》,这次基于类似的原理,为HanLP实现中文地...

层叠隐马模型下的音译人名和日本人名识别
命名实体识别

层叠隐马模型下的音译人名和日本人名识别

阅读(12126)评论(6)

命名实体中的人名识别包括中国人名,音译人名和日本人名。比如“北川景子参演了林诣彬导演,克里斯·摩根编剧的《速度与激情3》”“林志玲亮相网友:确定不是波多野结衣?”。 以前用三层HMM做过中国人名的识别,取得了满意的效果。这次来实现另外两种人...

实战rfc5766-turn-server和ice4j广域网通讯
网络

实战rfc5766-turn-server和ice4j广域网通讯

阅读(18649)评论(44)

前段时间上手了NAT打洞类库ice4j(ICE框架),当时使用了numb.viagenie.ca的公共STUN服务器。最近又编译了rfc5766-turn-server,于是今天将两者结合起来,一个作为服务端,一个作为Peer端的协议,试验...

WordPress 分页加html后缀伪静态
PHP

WordPress 分页加html后缀伪静态

阅读(15097)评论(10)

问题 当文章有分页的时候,WordPress生成的永久链接是page.html/2的形式,前面一段是文章的$link,后面的数字代表分页$number。那么问题来了,挖掘……不对,从逻辑上讲这到底是个html文件还是一个目录呢? 难看 在....

千万级巨型汉语词库分享
语料库

千万级巨型汉语词库分享

阅读(37470)评论(33)

算法+语料≈NLP 这是一个六千万词汇量的分类词库,做HanLP这么久,我逐渐体会到,算法无法解决所有问题,词库也非常重要。通常一个算法可以解决80%的问题,剩下的20%无论怎么调节优化,都是拆东墙补西墙。比如上次我提到的“区人保”被HMM...

我的作品

HanLP自然语言处理包《自然语言处理入门》