放牧代码和思想
专注自然语言处理、机器学习算法

命名实体识别

Michael Collins NLP公开课任务4 GLM

Michael Collins NLP公开课任务4 GLM

hankcs阅读(316)评论(2)

最后一次练习,对应课程结尾的对数线性模型框架;于是又拿下一门课。在这次练习中,我们将使用感知机算法训练一个GLM应用到命名实体识别上。对输入实例,GLM使用如下三个组件完成解码: 一个函数生成所有可能的结果 一个全局特征函数 一个参数向量 ...

层叠HMM-Viterbi角色标注模型下的机构名识别

层叠HMM-Viterbi角色标注模型下的机构名识别

hankcs阅读(4102)评论(18)

命名实体识别中最难的部分当属实体机构名了,这是因为机构名的组成成分十分复杂,可以是人名、地名、序数词、企业字号甚至是上级机构名。本文介绍一种基于角色标注的层叠HMM模型下中文机构名识别方法。目前代码已整合到HanLP中,即将开源。 开源项目...

实战HMM-Viterbi角色标注地名识别

实战HMM-Viterbi角色标注地名识别

hankcs阅读(4453)评论(16)

命名实体识别(Named Entity Recognition)也是自然语言处理中的一个难关,特别是中文这样没有大小写等固定形态的语言。上次介绍过《实战HMM-Viterbi角色标注中国人名识别》,这次基于类似的原理,为HanLP实现中文地...

层叠隐马模型下的音译人名和日本人名识别

层叠隐马模型下的音译人名和日本人名识别

hankcs阅读(3173)评论(6)

命名实体中的人名识别包括中国人名,音译人名和日本人名。比如“北川景子参演了林诣彬导演,克里斯·摩根编剧的《速度与激情3》”“林志玲亮相网友:确定不是波多野结衣?”。 以前用三层HMM做过中国人名的识别,取得了满意的效果。这次来实现另外两种人...

实战HMM-Viterbi角色标注中国人名识别

实战HMM-Viterbi角色标注中国人名识别

hankcs阅读(5576)评论(54)

这几天写完了人名识别模块,与分词放到一起形成了两层隐马模型。虽然在算法或模型上没有什么新意,但是胜在训练语料比较新,对质量把关比较严,实测效果很满意。比如这句真实的新闻“签约仪式前,秦光荣、李纪恒、仇和等一同会见了参加签约的企业家。”,分词...

ICTCLAS中的HMM人名识别

ICTCLAS中的HMM人名识别

hankcs阅读(4899)评论(1)

本文主要从代码的角度分析标注过程中的细节,理论谁都能说,但没几人能做出一个实用高效的系统。在得出粗分结果之后,需要对其进行人名、翻译人名、地名识别,然后重新KSP得出最终结果,在ICTCLAS中,这些标注都是通过HMM模型实现的。 人名识别...

我的开源项目

HanLP自然语言处理包基于DoubleArrayTrie的Aho Corasick自动机