标签：中文分词

第2页

层叠隐马模型下的音译人名和日本人名识别

2014-11-12阅读(12861)评论(6)

命名实体中的人名识别包括中国人名，音译人名和日本人名。比如“北川景子参演了林诣彬导演，克里斯·摩根编剧的《速度与激情3》”“林志玲亮相网友:确定不是波多野结衣？”。以前用三层HMM做过中国人名的识别，取得了满意的效果。这次来实现另外两种人...

2014-10-19阅读(8150)评论(2)

问题 WordPress的搜索功能非常简陋，如果用户搜索“日语综合教程+第六册”，WordPress会机械地构造一个wp_posts.post_title LIKE '%日语综合教程+第六册%'的SQL查询送到数据库里，结果...

2014-05-27阅读(12968)评论(1)

本文主要从代码的角度分析标注过程中的细节，理论谁都能说，但没几人能做出一个实用高效的系统。在得出粗分结果之后，需要对其进行人名、翻译人名、地名识别，然后重新KSP得出最终结果，在ICTCLAS中，这些标注都是通过HMM模型实现的。人名识别...

2014-05-26阅读(30651)评论(12)

HMM（隐马尔可夫模型）是用来描述隐含未知参数的统计模型，举一个经典的例子：一个东京的朋友每天根据天气{下雨，天晴}决定当天的活动{公园散步,购物,清理房间}中的一种，我每天只能在twitter上看到她发的推“啊，我前天公园散步、昨天购物、...

2014-05-22阅读(16827)评论(20)

前言今天连查带抄地用Java实现了N最短路径，马上要用到自己的分词器里了。 N最短路径其实就是K最短路径（KSP）的变种，KSP指的是DAG中单源路径中前K条最短的路径。求解KSP的算法有删除算法、改进的删除算法（MS Algorithm...

2014-05-20阅读(7668)评论(1)

Bigram语言模型中，分析的是连续两个词的组合概率。问题来了，“1人”和“2人”该怎么操作呢？这两个句子会被当成两种组合“1@人”和“2@人”，如果分别统计共现频次，会导致一个严重的问题，那就是对数词限定太死了，只在1人和2人的情况下能够...

2014-05-17阅读(19078)评论(19)

当分词系统有一份词典的时候，就可以生成词图了。所谓词图，指的是句子中所有词可能构成的图。如果一个词A的下一个词可能是B的话，那么A和B之间具有一条路径E(A,B)。一个词可能有多个后续，同时也可能有多个前驱，它们构成的图我称作词图。词图的...

2014-05-10阅读(14175)评论(5)

HanLP开源分词系统支持中文分词（N-最短路分词、CRF分词、索引分词、用户自定义词典、词性标注），命名实体识别（中国人名、音译人名、日本人名、地名、实体机构名识别），关键词提取，自动摘要，短语提取，拼音转换，简繁转换，文本推荐，依存句...

2014-03-19阅读(9453)评论(4)

事实上，ansj实现的双数组没有通用性，你也无法往里面加入自己的词语，或者删除任何词语。我实现了一个通用的双数组trie树，提供更灵活的接口，更高的速度：http://www.hankcs.com/nlp/hanlp.html。 array...