放牧代码和思想
专注自然语言处理、机器学习算法
    博主不用扣扣,公事请博客留言,私事请微博私信。开源项目一律GitHub见,发错地方恕不回复,谢谢。

命名实体识别

层叠HMM-Viterbi角色标注模型下的机构名识别

层叠HMM-Viterbi角色标注模型下的机构名识别

hankcs阅读(3801)评论(17)

命名实体识别中最难的部分当属实体机构名了,这是因为机构名的组成成分十分复杂,可以是人名、地名、序数词、企业字号甚至是上级机构名。本文介绍一种基于角色标注的层叠HMM模型下中文机构名识别方法。目前代码已整合到HanLP中,即将开源。 开源项目...

实战HMM-Viterbi角色标注地名识别

实战HMM-Viterbi角色标注地名识别

hankcs阅读(4119)评论(16)

命名实体识别(Named Entity Recognition)也是自然语言处理中的一个难关,特别是中文这样没有大小写等固定形态的语言。上次介绍过《实战HMM-Viterbi角色标注中国人名识别》,这次基于类似的原理,为HanLP实现中文地...

层叠隐马模型下的音译人名和日本人名识别

层叠隐马模型下的音译人名和日本人名识别

hankcs阅读(3021)评论(6)

命名实体中的人名识别包括中国人名,音译人名和日本人名。比如“北川景子参演了林诣彬导演,克里斯·摩根编剧的《速度与激情3》”“林志玲亮相网友:确定不是波多野结衣?”。 以前用三层HMM做过中国人名的识别,取得了满意的效果。这次来实现另外两种人...

实战HMM-Viterbi角色标注中国人名识别

实战HMM-Viterbi角色标注中国人名识别

hankcs阅读(5195)评论(52)

这几天写完了人名识别模块,与分词放到一起形成了两层隐马模型。虽然在算法或模型上没有什么新意,但是胜在训练语料比较新,对质量把关比较严,实测效果很满意。比如这句真实的新闻“签约仪式前,秦光荣、李纪恒、仇和等一同会见了参加签约的企业家。”,分词...

ICTCLAS中的HMM人名识别

ICTCLAS中的HMM人名识别

hankcs阅读(4663)评论(1)

本文主要从代码的角度分析标注过程中的细节,理论谁都能说,但没几人能做出一个实用高效的系统。在得出粗分结果之后,需要对其进行人名、翻译人名、地名识别,然后重新KSP得出最终结果,在ICTCLAS中,这些标注都是通过HMM模型实现的。 人名识别...

我的开源项目

HanLP自然语言处理包基于DoubleArrayTrie的Aho Corasick自动机