放牧代码和思想
专注自然语言处理、机器学习算法

2014年12月的文章

CRF分词的纯Java实现
中文分词

CRF分词的纯Java实现

hankcs阅读(9244)评论(17)

与基于隐马尔可夫模型的最短路径分词、N-最短路径分词相比,基于条件随机场(CRF)的分词对未登录词有更好的支持。本文(HanLP)使用纯Java实现CRF模型的读取与维特比后向解码,内部特征函数采用 双数组Trie树(Double...

CRF++模型格式说明
自然语言处理

CRF++模型格式说明

hankcs阅读(9641)评论(48)

通过追加-t, –textmodel参数可以输出文本格式的CRF模型文件,通过该模型文本,可以加深对条件随机场的理解或为其他应用所利用。本文旨在介绍CRF++的文本模型格式,具体读取与解码将集成到HanLP中一并开源。 训练 语...

《日语综合教程》第七册 第六課 自然と人間
第七册

《日语综合教程》第七册 第六課 自然と人間

hankcs阅读(15361)评论(3)

上外 《日语综合教程》 翻译注解。点击生词后的数字可以跳转到解释,再次点击返回(BackSpace键也可)。最后一页有课文翻译,支持键盘左右键(← →)翻页。 第六課 自然と人間 本文 季節 桜(さくら)の花(はな)が咲...

我的开源项目

HanLP自然语言处理包基于DoubleArrayTrie的Aho Corasick自动机