标签：HMM

Michael Collins NLP公开课任务4 GLM

2017-03-11阅读(5478)评论(2)

最后一次练习，对应课程结尾的对数线性模型框架；于是又拿下一门课。在这次练习中，我们将使用感知机算法训练一个GLM应用到命名实体识别上。对输入实例，GLM使用如下三个组件完成解码：一个函数生成所有可能的结果一个全局特征函数一个参数向量 ...

2015-05-07阅读(9192)评论(12)

谈起基于Character-Based Generative Model的中文分词方法，普遍的印象是在Bakeoff上的成绩好，对OOV的识别率高。HanLP中实现的CRF分词器其实就是这种原理的分词器，然而CRF分词缺点也是很明显的：一...

2015-03-27阅读(62626)

中文分词≠自然语言处理！中文分词只是第一步；HanLP从中文分词开始，覆盖词性标注、命名实体识别、句法分析、文本分类等常用任务，提供了丰富的API。不同于一些简陋的分词类库，HanLP精心优化了内部数据结构和IO接口，做到了毫秒级的冷启...

2014-11-19阅读(43613)评论(51)

词性标注（Part-of-Speech tagging 或POS tagging)，又称词类标注或者简称标注，是指为分词结果中的每个单词标注一个正确的词性的程序，也即确定每个词是名词、动词、形容词或其他词性的过程。在汉语中，词性标注比较简单...

2014-11-18阅读(14565)评论(25)

命名实体识别中最难的部分当属实体机构名了，这是因为机构名的组成成分十分复杂，可以是人名、地名、序数词、企业字号甚至是上级机构名。本文介绍一种基于角色标注的层叠HMM模型下中文机构名识别方法。目前代码已整合到HanLP中，即将开源。开源项目...

2014-11-17阅读(17073)评论(17)

命名实体识别（Named Entity Recognition）也是自然语言处理中的一个难关，特别是中文这样没有大小写等固定形态的语言。上次介绍过《实战HMM-Viterbi角色标注中国人名识别》，这次基于类似的原理，为HanLP实现中文地...

2014-11-12阅读(11337)评论(6)

命名实体中的人名识别包括中国人名，音译人名和日本人名。比如“北川景子参演了林诣彬导演，克里斯·摩根编剧的《速度与激情3》”“林志玲亮相网友:确定不是波多野结衣？”。以前用三层HMM做过中国人名的识别，取得了满意的效果。这次来实现另外两种人...

2014-05-27阅读(11804)评论(1)

本文主要从代码的角度分析标注过程中的细节，理论谁都能说，但没几人能做出一个实用高效的系统。在得出粗分结果之后，需要对其进行人名、翻译人名、地名识别，然后重新KSP得出最终结果，在ICTCLAS中，这些标注都是通过HMM模型实现的。人名识别...

2014-05-26阅读(26302)评论(12)

HMM（隐马尔可夫模型）是用来描述隐含未知参数的统计模型，举一个经典的例子：一个东京的朋友每天根据天气{下雨，天晴}决定当天的活动{公园散步,购物,清理房间}中的一种，我每天只能在twitter上看到她发的推“啊，我前天公园散步、昨天购物、...

2014-03-22阅读(17075)评论(5)

维特比算法说白了就是动态规划实现最短路径，只要知道“动态规划可以降低复杂度”这一点就能轻松理解维特比算法维特比算法是一个特殊但应用最广的动态规划算法，利用动态规划，可以解决任何一个图中的最短路径问题。而维特比算法是针对一个特殊的图——篱笆...