放牧代码和思想
专注自然语言处理、机器学习算法
    恕不接待索要源码语料者、索求技术方案者、以及不Google的懒人。

标签:ICTCLAS

HanLP自然语言处理包开源
自然语言处理

HanLP自然语言处理包开源

hankcs阅读(29316)

HanLP的初始版本于2014年初开发,原本是一个搜索项目期间的业余作品,在部分NLP开发者群中发布以后,得到了不少开发人员的鼓舞,包括上海林原公司的刘祥春先生也鼓励我把这个项目开源,随即我对HanLP项目做了进一步的完善,2015年3月H...

ICTCLAS中的HMM人名识别
中文分词

ICTCLAS中的HMM人名识别

hankcs阅读(5665)评论(1)

本文主要从代码的角度分析标注过程中的细节,理论谁都能说,但没几人能做出一个实用高效的系统。在得出粗分结果之后,需要对其进行人名、翻译人名、地名识别,然后重新KSP得出最终结果,在ICTCLAS中,这些标注都是通过HMM模型实现的。 人名识别...

HMM与分词、词性标注、命名实体识别
自然语言处理

HMM与分词、词性标注、命名实体识别

hankcs阅读(9729)评论(6)

HMM(隐马尔可夫模型)是用来描述隐含未知参数的统计模型,举一个经典的例子:一个东京的朋友每天根据天气{下雨,天晴}决定当天的活动{公园散步,购物,清理房间}中的一种,我每天只能在twitter上看到她发的推“啊,我前天公园散步、昨天购物、...

N最短路径的Java实现与分词应用
中文分词

N最短路径的Java实现与分词应用

hankcs阅读(5343)评论(17)

前言 今天连查带抄地用Java实现了N最短路径,马上要用到自己的分词器里了。 N最短路径其实就是K最短路径(KSP)的变种,KSP指的是DAG中单源路径中前K条最短的路径。求解KSP的算法有删除算法、改进的删除算法(MS Algorithm...

我的开源项目

HanLP自然语言处理包基于DoubleArrayTrie的Aho Corasick自动机