
《智能Web算法》2.1 用Lucene构建搜索引擎
这是《智能Web算法》的笔记,备忘备查。 Lucene是一个成功的开源IR(信息获取)库,可以快速地分析、索引和搜索文档(网页和电子文档)。 Lucene现在最新版本已经有4.6了,由于《智能Web算法》的配书代码用的是2.3.0,所以我依...
这是《智能Web算法》的笔记,备忘备查。 Lucene是一个成功的开源IR(信息获取)库,可以快速地分析、索引和搜索文档(网页和电子文档)。 Lucene现在最新版本已经有4.6了,由于《智能Web算法》的配书代码用的是2.3.0,所以我依...
从Google code下载最新的配书代码,建议解压到C盘,不然路径很麻烦。 编译前确保Java安装并配置好环境变量,apache ant的环境变量可加可不加,但是一定要下载一个。把下面的傻瓜批处理复制,新建一个run.bat,粘贴进去,最...
日文字符的Unicode编码范围是: U+3040–U+309F: Hiragana U+30A0–U+30FF: Katakana U+4E00–U+9FBF: Kanji 所以我们只需要对每一个字符判断其是否位于这三个区间即可。另外,如...
据说Streaming API 的效率是最高的,写入的时候直接调用JsonGenerator.writexxxfield,最后一个close就flush到文件了。不过读取的时候则比较蠢(?),需要一个while循环,不断地将文件里的字段与对...
JSON数据看起来就像一棵树,也可以用类似于XML的解析方法来解析。将上篇文章的Demo改为: package com.hankcs; import org.codehaus.jackson.JsonNode; impo...
上篇入门教程里实现了JSON数据与Java对象的相互转换,在那篇文章里,我们编写了Java对象的class所以才能存放它。实际上,在不需要class的场景下,一个Map就可以简单地将对象表示出来。 还是拿上次的Demo项目做演示,这次我们删...
JSON(JavaScript Object Notation)是一种轻量级的数据交换语言,以文字为基础,不仅便于机器解析,而且易于让人阅读。 谈起数据持久化储存,Java和MFC有序列化,Windows下还经常使用IN...
A safe and easy-to-use class SafeProgressDialog which avoids IllegalArgumentException. If you get a java.lang.IllegalAr...
Jad其实是一个优秀的反汇编工具,在命令行下使用。Jad并不局限于IDEA,在eclipse下也有插件。这里记录一下Jad IDEA下的配置。 插件的安装很简单,请参考http://wangqiaowqo.iteye.com/blog/40...
今天重构项目后运行抛出异常: Exception in thread "main" java.lang.ClassNotFoundException: Main at&n...