放牧代码和思想
专注自然语言处理、机器学习算法
    愛しさ 優しさ すべて投げ出してもいい

自然语言处理

第10页
HMM与分词、词性标注、命名实体识别

HMM与分词、词性标注、命名实体识别

阅读(26312)评论(12)

HMM(隐马尔可夫模型)是用来描述隐含未知参数的统计模型,举一个经典的例子:一个东京的朋友每天根据天气{下雨,天晴}决定当天的活动{公园散步,购物,清理房间}中的一种,我每天只能在twitter上看到她发的推“啊,我前天公园散步、昨天购物、...

N最短路径的Java实现与分词应用

N最短路径的Java实现与分词应用

阅读(14873)评论(20)

前言 今天连查带抄地用Java实现了N最短路径,马上要用到自己的分词器里了。 N最短路径其实就是K最短路径(KSP)的变种,KSP指的是DAG中单源路径中前K条最短的路径。求解KSP的算法有删除算法、改进的删除算法(MS Algorithm...

Bigram分词中的等效词串

Bigram分词中的等效词串

阅读(6934)评论(1)

Bigram语言模型中,分析的是连续两个词的组合概率。问题来了,“1人”和“2人”该怎么操作呢?这两个句子会被当成两种组合“1@人”和“2@人”,如果分别统计共现频次,会导致一个严重的问题,那就是对数词限定太死了,只在1人和2人的情况下能够...

词图的生成

词图的生成

阅读(16559)评论(19)

当分词系统有一份词典的时候,就可以生成词图了。所谓词图,指的是句子中所有词可能构成的图。如果一个词A的下一个词可能是B的话,那么A和B之间具有一条路径E(A,B)。一个词可能有多个后续,同时也可能有多个前驱,它们构成的图我称作词图。 词图的...

几个开源分词系统所使用标注集的来源

几个开源分词系统所使用标注集的来源

阅读(12870)评论(5)

HanLP开源分词系统 支持中文分词(N-最短路分词、CRF分词、索引分词、用户自定义词典、词性标注),命名实体识别(中国人名、音译人名、日本人名、地名、实体机构名识别),关键词提取,自动摘要,短语提取,拼音转换,简繁转换,文本推荐,依存句...

几种Trie树性能比较

几种Trie树性能比较

阅读(14567)评论(4)

最近正在做一个自己的NLP库,刚起步的第一个问题就是字典的储存与查询。毫无疑问,最佳的数据结构是Trie树,同时为了平衡效率和空间,决定使用双数组Trie树。现在的问题是,双数组Trie树是一个压缩的Trie树,在插入的时候需要递归调整ba...

Python正则表达式处理中文语料库

Python正则表达式处理中文语料库

阅读(9667)评论(4)

Python正则表达式处理中文文本文件一要注意编码,二要注意贪婪匹配模式。 以广为流传的人民日报分词语料为例: 人民网/nz 1月1日/t 讯/ng 据/p 《/w [纽约/nsf 时报/n]/nz 》/w 报道/v ,/w 美国/nsf ...

NLTK中文语料库sinica_treebank

NLTK中文语料库sinica_treebank

阅读(12456)评论(3)

NLTK包含Sinica (中央研究院)提供的繁体中文语料库,其在Python环境下的显示有些讲究。 NLTK sinica_treebank 显示中文 在IDLE中如果直接查看的话会显示十六进制码: >>> f...

Window 7 64位 Python 2.7 NLTK 安装

Window 7 64位 Python 2.7 NLTK 安装

阅读(11749)评论(0)

《Natural Language Processing with Python》里用到的NLTK在64位Windows上安装出了些问题。 我的工作站环境是Win7 AMD 64 + Python 2.7.6 64 bit,Visual S...

第3章 形式语言与自动机

第3章 形式语言与自动机

阅读(10956)评论(0)

3.1 基本概念 3.1.1 图 无向图、有向图、连通图和回路。 3.1.2 树 森林:无回路无向图。 树:无回路连通无向图。 根树:有根节点的树。 3.1.3 字符串 Σ:是字符表。 字符串:由Σ中字符相连而成的有限序列被称之为Σ 上的字...

我的作品

HanLP自然语言处理包《自然语言处理入门》