放牧代码和思想
专注自然语言处理、机器学习算法
    时间有限,只有GitHub上的issue能及时处理,大约每周末一次。另外,不要叫我楼主,谢谢。

标签:HMM

Michael Collins NLP公开课任务4 GLM
命名实体识别

Michael Collins NLP公开课任务4 GLM

hankcs阅读(599)评论(2)

最后一次练习,对应课程结尾的对数线性模型框架;于是又拿下一门课。在这次练习中,我们将使用感知机算法训练一个GLM应用到命名实体识别上。对输入实例,GLM使用如下三个组件完成解码: 一个函数生成所有可能的结果 一个全局特征函数 一个参数向量 ...

HanLP自然语言处理包开源
自然语言处理

HanLP自然语言处理包开源

hankcs阅读(27428)

支持中文分词(N-最短路分词、CRF分词、索引分词、用户自定义词典、词性标注),命名实体识别(中国人名、音译人名、日本人名、地名、实体机构名识别),关键词提取,自动摘要,短语提取,拼音转换,简繁转换,文本推荐,依存句法分析(MaxEnt依存...

词性标注
中文分词

词性标注

hankcs阅读(9462)评论(39)

词性标注(Part-of-Speech tagging 或POS tagging),又称词类标注或者简称标注,是指为分词结果中的每个单词标注一个正确的词性的程序,也即确定每个词是名词、动词、形容词或其他词性的过程。在汉语中,词性标注比较简单...

层叠HMM-Viterbi角色标注模型下的机构名识别
命名实体识别

层叠HMM-Viterbi角色标注模型下的机构名识别

hankcs阅读(4723)评论(18)

命名实体识别中最难的部分当属实体机构名了,这是因为机构名的组成成分十分复杂,可以是人名、地名、序数词、企业字号甚至是上级机构名。本文介绍一种基于角色标注的层叠HMM模型下中文机构名识别方法。目前代码已整合到HanLP中,即将开源。 开源项目...

实战HMM-Viterbi角色标注地名识别
命名实体识别

实战HMM-Viterbi角色标注地名识别

hankcs阅读(5149)评论(16)

命名实体识别(Named Entity Recognition)也是自然语言处理中的一个难关,特别是中文这样没有大小写等固定形态的语言。上次介绍过《实战HMM-Viterbi角色标注中国人名识别》,这次基于类似的原理,为HanLP实现中文地...

层叠隐马模型下的音译人名和日本人名识别
命名实体识别

层叠隐马模型下的音译人名和日本人名识别

hankcs阅读(3484)评论(6)

命名实体中的人名识别包括中国人名,音译人名和日本人名。比如“北川景子参演了林诣彬导演,克里斯·摩根编剧的《速度与激情3》”“林志玲亮相网友:确定不是波多野结衣?”。 以前用三层HMM做过中国人名的识别,取得了满意的效果。这次来实现另外两种人...

ICTCLAS中的HMM人名识别
中文分词

ICTCLAS中的HMM人名识别

hankcs阅读(5256)评论(1)

本文主要从代码的角度分析标注过程中的细节,理论谁都能说,但没几人能做出一个实用高效的系统。在得出粗分结果之后,需要对其进行人名、翻译人名、地名识别,然后重新KSP得出最终结果,在ICTCLAS中,这些标注都是通过HMM模型实现的。 人名识别...

HMM与分词、词性标注、命名实体识别
自然语言处理

HMM与分词、词性标注、命名实体识别

hankcs阅读(8891)评论(4)

HMM(隐马尔可夫模型)是用来描述隐含未知参数的统计模型,举一个经典的例子:一个东京的朋友每天根据天气{下雨,天晴}决定当天的活动{公园散步,购物,清理房间}中的一种,我每天只能在twitter上看到她发的推“啊,我前天公园散步、昨天购物、...

维特比算法通俗理解
算法

维特比算法通俗理解

hankcs阅读(8917)评论(4)

维特比算法说白了就是动态规划实现最短路径,只要知道“动态规划可以降低复杂度”这一点就能轻松理解维特比算法 维特比算法是一个特殊但应用最广的动态规划算法,利用动态规划,可以解决任何一个图中的最短路径问题。而维特比算法是针对一个特殊的图——篱笆...

我的开源项目

HanLP自然语言处理包基于DoubleArrayTrie的Aho Corasick自动机