汉字转拼音与简繁转换的Java实现-码农场

stuxuhai/jpinyin
原理
词典格式
算法
评价
NLPchina/nlp-lang
词典格式
算法
简繁转换算法
拼音算法
评价
luhuiguo/chinese-utils
词典格式
算法
简繁转换
汉字转拼音
评价
HanLP
简繁转换
输出
汉字转拼音
输出
开源项目

最近HanLP希望支持拼音与繁体功能，所以学习了几个开源的Java实现，优化后集成进来。

stuxuhai/jpinyin

原理

这是GitHub上星星最多一个，主要原理就是利用一张HashTable将字与拼音一一对应起来。同时，在扫描的时候也会将当前汉字依次与后面的3个、2个、1个汉字组合，判断下是否存在多音字词组。也就是说，它最多支持4字词的多音字校正。同时，顺序扫描并且组合的话，复杂度的常数项有点高（大约是O(4n)）。再乘上哈希表的复杂度，就是一个愚蠢、低效的实现。

词典格式

jpinyin中一共有3个表，分别是：

chinese.db 简繁词表

一共大约两千个汉字的简繁对应：

事实上，汉字的简繁对应并非严格的一对一，比如“皇后”的繁体应该是“皇后”，而“以后”的繁体应该是“以後”，两者并不相同。季先生着重谈到当年简化汉字时，也说把“皇后”的后与“以后”的“后”弄成一个字是遗憾。

所以这个词典就是个垃圾。

pinyin.db 汉字读音表

一共大约两万个汉字与它们的读音，支持多音字：

mutil_pinyin.db 多音词组

有些词语中的某个字读音与常用读音不同，比如鸭绿江。一共大约八百个：

这些词典都是以zip形式的Property储存的，而Property其实就是一个HashMap，所以这些词典可以视作哈希表。

算法

算法没什么可说的，基本步骤是：

先统统以字为单位转为简体
从前往后扫描，先尝试多音字识别处理（将当前汉字依次与后面的3个、2个、1个汉字组合，判断下是否存在多音字词组），如果没有查到多音词组，则以字为单位查询读音，取第一个（也就是说多音字并没有利用到）。

评价

个人评价极低，不支持简繁体分歧，在多音字的处理上没有用到更高效的算法，乏善可陈，渣渣。

NLPchina/nlp-lang

这个项目是一个基本包，封装了大多数nlp项目中常用工具，其中就有简繁转换与拼音模块。

词典格式

fan2jian.dic 简繁体分歧词典

这是一个繁体到简体的词典，词汇量大约在五千左右，但是包含了一些汉字的简繁对照，所以真实词汇量会小很多：

pinyin.dic 拼音字词词典

这是一个汉字与词语到拼音的词典，词汇量在20万左右，同样包含汉字的拼音，所以真实词汇量会小很多：

算法

算法与词典在内存中的数据结构有很大关系，ansj这次使用了二分trie树来储存这些词典。

简繁转换算法

使用了二分trie树的前缀查询算法，比Hash表高效。关于二分trie树的更多讲解，请参考：《Trie树分词》。

值得注意的是，这里的繁转简词典是fan2jian.dic所示，简转繁词典则是fan2jian.dic的前后两个词串逆转过来合成的，这样做很聪明。当然，会损失一些词语，比如：

乙太網	        以太网
乙太網路	以太网

不过，ansj的词典还是弱了一点，把“皇后”转成了“皇後”。

拼音算法

拼音词典，储存采用了一个叫做SmartForest的结构。

/**
 * 一个小树,和Forest的区别是.这个在首字也是用二分查找,做过一次优化.达到到达一定量级自动扩展为hash定位 在ansj分词中这个应用是在自适应分词
 *
 * @author ansj
 */
public class SmartForest<T> implements Comparable<SmartForest<T>>

SmartForest依然是一棵trie树，只不过，当如果数组内元素接近于最大值直接数组定位（Forest则永远是二分定位）：

添加：

            // 如果数组内元素接近于最大值直接数组定位，rate是内存和速度的一个平衡
            if (branches != null && branches.length >= MAX_SIZE * rate)
            {
                SmartForest<T>[] tempBranches = new SmartForest[MAX_SIZE];
                for (SmartForest<T> b : branches)
                {
                    tempBranches[b.getC()] = b;
                }
                tempBranches[branch.getC()] = branch;
                branches = null;
                branches = tempBranches;
            }
            else
            {
                SmartForest<T>[] newBranches = new SmartForest[branches.length + 1];
                int insert = -(bs + 1);
                System.arraycopy(this.branches, 0, newBranches, 0, insert);
                System.arraycopy(branches, insert, newBranches, insert + 1, branches.length - insert);
                newBranches[insert] = branch;
                this.branches = newBranches;
            }

查找：

    public int get(char c)
    {
        if (branches == null)
            return -1;
        if (branches.length == MAX_SIZE)
        {
            return c;
        }
        int i = Arrays.binarySearch(this.branches, new SmartForest<T>(c));
        return i;
    }

其他的并没有特别的，依然是《Trie树分词》的那一套逻辑。

评价

算法给好评，词典给中评。

luhuiguo/chinese-utils

这是一套名不见经传的类库，作者在介绍中说“中文相关工具包，目前提供中文简繁体互转，以及中文转拼音。未来会提供中文分词。”，不清楚是否会履行诺言。

词典格式

pinyin.txt 汉字拼音字典

这是单个汉字与拼音的对照词典，大约有两万个常用与罕见的汉字：

polyphone.txt 多音词词典

与jpinyin类似，是异读词的集合，大约有一万词汇量：

非常全面，像这个“鱼丽于罶”还是第一次见到，我读书少，你们不要骗我。

unknown.txt 未知读音的字的词典（这个名字好长我自己起的）

一些奇怪的汉字，可能是韩国或日本的汉字：

simp.txt trad.txt 简繁汉字对应词典

两个词典合起来就是简繁汉字对应词典了，作者把它们拆开了。

simplified.txt 繁简分歧词表
##### 繁简分歧词表 #####

# 计算机
印表機=打印机
記憶體=内存
乙太網=以太网
乙太網路=以太网
游標=光标
光碟=光盘
光碟機=光驱
軟碟機=软驱
匯流排=总线
碟片=盘片
硬體=硬件
硬碟=硬盘
磁碟=磁盘
磁軌=磁道
通信埠=端口
連接埠=端口
介面=接口
運算元=算子
演算法=算法
traditional.txt 简繁分歧词表
##### 简繁分歧词表 #####

# 计算机
打印机=印表機
内存=記憶體
以太网=乙太網
光标=游標
光盘=光碟
光驱=光碟機
软驱=軟碟機
总线=匯流排
盘片=碟片
硬件=硬體
硅谷=矽谷
硬盘=硬碟
磁盘=磁碟
磁道=磁軌
端口=通信埠
接口=介面
算子=運算元
算法=演算法
芯片=晶片

算法

作者实现了一棵基于哈希表的trie树，速度估计勉勉强强，内存估计够呛。

简繁转换

依然是《Trie树分词》的那一套逻辑，先从分歧词表查，查不到再从单字简繁对照表中查。