放牧代码和思想
专注自然语言处理、机器学习算法

标签:中文分词

第2页
层叠隐马模型下的音译人名和日本人名识别
命名实体识别

层叠隐马模型下的音译人名和日本人名识别

hankcs阅读(4397)评论(6)

命名实体中的人名识别包括中国人名,音译人名和日本人名。比如“北川景子参演了林诣彬导演,克里斯·摩根编剧的《速度与激情3》”“林志玲亮相网友:确定不是波多野结衣?”。 以前用三层HMM做过中国人名的识别,取得了满意的效果。这次来实现另外两种人...

WordPress中文分词与智能搜索
PHP

WordPress中文分词与智能搜索

hankcs阅读(3742)评论(2)

问题 WordPress的搜索功能非常简陋,如果用户搜索“日语综合教程+第六册”,WordPress会机械地构造一个wp_posts.post_title LIKE '%日语综合教程+第六册%'的SQL查询送到数据库里,结果...

ICTCLAS中的HMM人名识别
中文分词

ICTCLAS中的HMM人名识别

hankcs阅读(6191)评论(1)

本文主要从代码的角度分析标注过程中的细节,理论谁都能说,但没几人能做出一个实用高效的系统。在得出粗分结果之后,需要对其进行人名、翻译人名、地名识别,然后重新KSP得出最终结果,在ICTCLAS中,这些标注都是通过HMM模型实现的。 人名识别...

HMM与分词、词性标注、命名实体识别
自然语言处理

HMM与分词、词性标注、命名实体识别

hankcs阅读(10709)评论(7)

HMM(隐马尔可夫模型)是用来描述隐含未知参数的统计模型,举一个经典的例子:一个东京的朋友每天根据天气{下雨,天晴}决定当天的活动{公园散步,购物,清理房间}中的一种,我每天只能在twitter上看到她发的推“啊,我前天公园散步、昨天购物、...

N最短路径的Java实现与分词应用
中文分词

N最短路径的Java实现与分词应用

hankcs阅读(6022)评论(17)

前言 今天连查带抄地用Java实现了N最短路径,马上要用到自己的分词器里了。 N最短路径其实就是K最短路径(KSP)的变种,KSP指的是DAG中单源路径中前K条最短的路径。求解KSP的算法有删除算法、改进的删除算法(MS Algorithm...

Bigram分词中的等效词串
中文分词

Bigram分词中的等效词串

hankcs阅读(3658)评论(0)

Bigram语言模型中,分析的是连续两个词的组合概率。问题来了,“1人”和“2人”该怎么操作呢?这两个句子会被当成两种组合“1@人”和“2@人”,如果分别统计共现频次,会导致一个严重的问题,那就是对数词限定太死了,只在1人和2人的情况下能够...

词图的生成
中文分词

词图的生成

hankcs阅读(5899)评论(18)

当分词系统有一份词典的时候,就可以生成词图了。所谓词图,指的是句子中所有词可能构成的图。如果一个词A的下一个词可能是B的话,那么A和B之间具有一条路径E(A,B)。一个词可能有多个后续,同时也可能有多个前驱,它们构成的图我称作词图。 词图的...

几个开源分词系统所使用标注集的来源
语料库

几个开源分词系统所使用标注集的来源

hankcs阅读(7547)评论(4)

HanLP开源分词系统 支持中文分词(N-最短路分词、CRF分词、索引分词、用户自定义词典、词性标注),命名实体识别(中国人名、音译人名、日本人名、地名、实体机构名识别),关键词提取,自动摘要,短语提取,拼音转换,简繁转换,文本推荐,依存句...

我的开源项目

HanLP自然语言处理包基于DoubleArrayTrie的Aho Corasick自动机