放牧代码和思想
专注自然语言处理、机器学习算法
    This thing called love. Know I would've. Thrown it all away. Wouldn't hesitate.

自然语言处理

第8页
基于CRF序列标注的中文依存句法分析器的Java实现

基于CRF序列标注的中文依存句法分析器的Java实现

阅读(12617)评论(8)

这是一个基于CRF的中文依存句法分析器,内部CRF模型的特征函数采用 双数组Trie树(DoubleArrayTrie)储存,解码采用特化的维特比后向算法。相较于《最大熵依存句法分析器的实现》,分析速度翻了一倍,达到了1262.8...

CRF分词的纯Java实现

CRF分词的纯Java实现

阅读(18446)评论(20)

与基于隐马尔可夫模型的最短路径分词、N-最短路径分词相比,基于条件随机场(CRF)的分词对未登录词有更好的支持。本文(HanLP)使用纯Java实现CRF模型的读取与维特比后向解码,内部特征函数采用 双数组Trie树(Double...

CRF++模型格式说明

CRF++模型格式说明

阅读(25487)评论(52)

通过追加-t, –textmodel参数可以输出文本格式的CRF模型文件,通过该模型文本,可以加深对条件随机场的理解或为其他应用所利用。本文旨在介绍CRF++的文本模型格式,具体读取与解码将集成到HanLP中一并开源。 训练 语...

最大熵依存句法分析器的实现

最大熵依存句法分析器的实现

阅读(12159)评论(7)

这是一个判决式汉语句法分析器的Java实现,基于最大熵模型和最大生成树模型,实现了中文依存句法的自动分析,分析速度达到 570.7句/秒。 开源项目 本文代码已集成到HanLP中开源:http://www.hankcs.com/n...

最大熵的Java实现

最大熵的Java实现

阅读(10688)评论(12)

这是一个最大熵的简明Java实现,提供训练与预测接口。训练采用GIS训练算法,附带示例训练集。本文旨在介绍最大熵的原理、分类和实现,不涉及公式推导或其他训练算法,请放心食用。 最大熵理论 简介 最大熵属于辨识模型,能够满足所有已知的约束, ...

依存句法分析器的简单实现

依存句法分析器的简单实现

阅读(14759)评论(22)

早期博文含有大量错误,见谅。关于最大生成树句法分析器,请参考 Non-projective Dependency Parsing using Spanning Tree Algorithms 生成式句法分析指的是,生成一系列依存句法树,从它...

汉语树库

汉语树库

阅读(20872)评论(14)

本文旨在介绍CoNLL格式的中文依存语料库(汉语依存树库)、CoNLL格式相关工具,以及提供两个公开的中文依存语料库下载。 最近做完了分词、词性标注、命名实体识别、关键词提取、自动摘要、拼音、简繁转换、文本推荐,感觉HanLP初具雏形。现在...

词性标注

词性标注

阅读(43622)评论(51)

词性标注(Part-of-Speech tagging 或POS tagging),又称词类标注或者简称标注,是指为分词结果中的每个单词标注一个正确的词性的程序,也即确定每个词是名词、动词、形容词或其他词性的过程。在汉语中,词性标注比较简单...

层叠HMM-Viterbi角色标注模型下的机构名识别

层叠HMM-Viterbi角色标注模型下的机构名识别

阅读(14570)评论(25)

命名实体识别中最难的部分当属实体机构名了,这是因为机构名的组成成分十分复杂,可以是人名、地名、序数词、企业字号甚至是上级机构名。本文介绍一种基于角色标注的层叠HMM模型下中文机构名识别方法。目前代码已整合到HanLP中,即将开源。 开源项目...

实战HMM-Viterbi角色标注地名识别

实战HMM-Viterbi角色标注地名识别

阅读(17081)评论(17)

命名实体识别(Named Entity Recognition)也是自然语言处理中的一个难关,特别是中文这样没有大小写等固定形态的语言。上次介绍过《实战HMM-Viterbi角色标注中国人名识别》,这次基于类似的原理,为HanLP实现中文地...

我的作品

HanLP自然语言处理包《自然语言处理入门》