2014年11月的文章

《日语综合教程》第七册第五課読み物雄弁な寡黙

2014-11-30阅读(18811)评论(0)

読み物雄弁な寡黙宮沢和史アテネ[1] オリンピック[2] ではここ何回(なんかい)かの大会(たいかい)に比(くら)べて日本人選手(にほんじ...

2014-11-26阅读(12151)评论(7)

这是一个判决式汉语句法分析器的Java实现，基于最大熵模型和最大生成树模型，实现了中文依存句法的自动分析，分析速度达到 570.7句/秒。开源项目本文代码已集成到HanLP中开源：http://www.hankcs.com/n...

2014-11-24阅读(5387)评论(2)

POJ 3420 Quad Tiling 贴瓷砖：4*N的地板上用2*1的瓷砖铺满，求所有方案数对M求余。 3.4熟练掌握动态规划矩阵的幂久违地上了节课，太无聊，只好刷一题。假设S[n]表示填满n时的方案数，有S[0]=1。定义矩阵 ...

2014-11-23阅读(122567)评论(0)

上外《日语综合教程》翻译注解。点击生词后的数字可以跳转到解释，再次点击返回（BackSpace键也可）。最后一页有课文翻译，支持键盘左右键(← →)翻页。第五課　みやこ人と都会人本文 &n...

2014-11-23阅读(10685)评论(12)

这是一个最大熵的简明Java实现，提供训练与预测接口。训练采用GIS训练算法，附带示例训练集。本文旨在介绍最大熵的原理、分类和实现，不涉及公式推导或其他训练算法，请放心食用。最大熵理论简介最大熵属于辨识模型,能够满足所有已知的约束, ...

2014-11-21阅读(14753)评论(22)

早期博文含有大量错误，见谅。关于最大生成树句法分析器，请参考 Non-projective Dependency Parsing using Spanning Tree Algorithms 生成式句法分析指的是，生成一系列依存句法树，从它...

2014-11-19阅读(20863)评论(14)

本文旨在介绍CoNLL格式的中文依存语料库（汉语依存树库）、CoNLL格式相关工具，以及提供两个公开的中文依存语料库下载。最近做完了分词、词性标注、命名实体识别、关键词提取、自动摘要、拼音、简繁转换、文本推荐，感觉HanLP初具雏形。现在...

2014-11-19阅读(43600)评论(51)

词性标注（Part-of-Speech tagging 或POS tagging)，又称词类标注或者简称标注，是指为分词结果中的每个单词标注一个正确的词性的程序，也即确定每个词是名词、动词、形容词或其他词性的过程。在汉语中，词性标注比较简单...

2014-11-18阅读(14564)评论(25)

命名实体识别中最难的部分当属实体机构名了，这是因为机构名的组成成分十分复杂，可以是人名、地名、序数词、企业字号甚至是上级机构名。本文介绍一种基于角色标注的层叠HMM模型下中文机构名识别方法。目前代码已整合到HanLP中，即将开源。开源项目...

2014-11-17阅读(17071)评论(17)

命名实体识别（Named Entity Recognition）也是自然语言处理中的一个难关，特别是中文这样没有大小写等固定形态的语言。上次介绍过《实战HMM-Viterbi角色标注中国人名识别》，这次基于类似的原理，为HanLP实现中文地...