放牧代码和思想
专注自然语言处理、机器学习算法

HanLP极致简繁转换

目录

谈起简繁转换,许多人以为是小意思,按字转换就行了。事实上,汉语历史悠久,地域复杂,发展至今在字符级别存在“一简对多繁”和“一繁对多简”,在词语级别上存在“简繁分歧词”,在港澳台等地则存在“字词习惯不同”的情况。为此,HanLP新增了“简体”“繁体”“臺灣正體”“香港繁體”间的相互转换功能,力图将简繁转换做到极致。

关于这些汉语语言上的详情,请参考郭家寶的OpenCC项目。HanLP整合了该项目的词库,用原生的AhoCorasickDoubleArrayTrie算法实现了各语言分支的转换。对于简繁转换模块来说,算法都是类似的,最宝贵的地方在于词库,在此向OpenCC表示敬意和感谢!

快速上手

一个Demo

System.out.println(HanLP.convertToTraditionalChinese("“以后等你当上皇后,就能买草莓庆祝了”。发现一根白头发"));
System.out.println(HanLP.convertToSimplifiedChinese("憑藉筆記簿型電腦寫程式HanLP"));
// 简体转台湾繁体
System.out.println(HanLP.s2tw("hankcs在台湾写代码"));
// 台湾繁体转简体
System.out.println(HanLP.tw2s("hankcs在臺灣寫程式碼"));
// 简体转香港繁体
System.out.println(HanLP.s2hk("hankcs在香港写代码"));
// 香港繁体转简体
System.out.println(HanLP.hk2s("hankcs在香港寫代碼"));
// 香港繁体转台湾繁体
System.out.println(HanLP.hk2tw("hankcs在臺灣寫代碼"));
// 台湾繁体转香港繁体
System.out.println(HanLP.tw2hk("hankcs在香港寫程式碼"));

// 香港/台湾繁体和HanLP标准繁体的互转
System.out.println(HanLP.t2tw("hankcs在臺灣寫代碼"));
System.out.println(HanLP.t2hk("hankcs在臺灣寫代碼"));

System.out.println(HanLP.tw2t("hankcs在臺灣寫程式碼"));
System.out.println(HanLP.hk2t("hankcs在台灣寫代碼"));

输出

「以後等你當上皇后,就能買草莓慶祝了」。發現一根白頭髮
凭借笔记本电脑写程序HanLP
hankcs在臺灣寫程式碼
hankcs在台湾写代码
hankcs在香港寫代碼
hankcs在香港写代码
hankcs在臺灣寫程式碼
hankcs在香港寫代碼
hankcs在臺灣寫程式碼
hankcs在台灣寫代碼
hankcs在臺灣寫代碼
hankcs在臺灣寫代碼

说明

注意在旧版HanLP中,简体“草莓”被转换为“士多啤梨”。后来有用户告诉我“士多啤梨”是香港的用法,不属于通俗意义上的“繁体”,所以在新版中去除了这一转换。而“臺灣”“程式碼”是台湾地区的用法,“台灣”“代碼”则是香港地区的用法,所以

System.out.println(HanLP.t2tw("hankcs在臺灣寫代碼"));
System.out.println(HanLP.t2hk("hankcs在臺灣寫代碼"));

分别输出了:

hankcs在臺灣寫程式碼
hankcs在台灣寫代碼

这里面存在微妙的不同。

基本定义

简体

HanLP中的简体特指大陆地区的简体字。

繁体

HanLP中的繁体是通俗意义上的繁体中文,即受众最广的繁体表示。如果说OpenCC定义了自己的“OpenCC繁体标准”的话,那么这也可以算得上“HanLP繁体标准”。

香港繁體

指的是香港地区使用的繁体中文,据OpenCC的wiki介绍,属于“香港小學學習字詞表標準”。

臺灣正體

指的是台湾地区使用的繁体中文,即“臺灣正體標準”。

接口一览

HanLP支持上述四种中文任意两种之间的转换:

/**
 * 简转繁,是{@link com.hankcs.hanlp.HanLP#convertToTraditionalChinese(java.lang.String)}的简称
 * @param s 简体中文
 * @return 繁体中文(大陆标准)
 */
public static String s2t(String s)
{
    return HanLP.convertToTraditionalChinese(s);
}

/**
 * 繁转简,是{@link HanLP#convertToSimplifiedChinese(String)}的简称
 * @param t 繁体中文(大陆标准)
 * @return 简体中文
 */
public static String t2s(String t)
{
    return HanLP.convertToSimplifiedChinese(t);
}

/**
 * 簡體到臺灣正體
 * @param s 簡體
 * @return 臺灣正體
 */
public static String s2tw(String s)
{
    return SimplifiedToTaiwanChineseDictionary.convertToTraditionalTaiwanChinese(s);
}

/**
 * 臺灣正體到簡體
 * @param tw 臺灣正體
 * @return 簡體
 */
public static String tw2s(String tw)
{
    return TaiwanToSimplifiedChineseDictionary.convertToSimplifiedChinese(tw);
}

/**
 * 簡體到香港繁體
 * @param s 簡體
 * @return 香港繁體
 */
public static String s2hk(String s)
{
    return SimplifiedToHongKongChineseDictionary.convertToTraditionalHongKongChinese(s);
}

/**
 * 香港繁體到簡體
 * @param hk 香港繁體
 * @return 簡體
 */
public static String hk2s(String hk)
{
    return HongKongToSimplifiedChineseDictionary.convertToSimplifiedChinese(hk);
}

/**
 * 繁體到臺灣正體
 * @param t 繁體
 * @return 臺灣正體
 */
public static String t2tw(String t)
{
    return TraditionalToTaiwanChineseDictionary.convertToTaiwanChinese(t);
}

/**
 * 臺灣正體到繁體
 * @param tw 臺灣正體
 * @return 繁體
 */
public static String tw2t(String tw)
{
    return TaiwanToTraditionalChineseDictionary.convertToTraditionalChinese(tw);
}

/**
 * 繁體到香港繁體
 * @param t 繁體
 * @return 香港繁體
 */
public static String t2hk(String t)
{
    return TraditionalToHongKongChineseDictionary.convertToHongKongTraditionalChinese(t);
}

/**
 * 香港繁體到繁體
 * @param hk 香港繁體
 * @return 繁體
 */
public static String hk2t(String hk)
{
    return HongKongToTraditionalChineseDictionary.convertToTraditionalChinese(hk);
}

/**
 * 香港繁體到臺灣正體
 * @param hk 香港繁體
 * @return 臺灣正體
 */
public static String hk2tw(String hk)
{
    return HongKongToTaiwanChineseDictionary.convertToTraditionalTaiwanChinese(hk);
}

/**
 * 臺灣正體到香港繁體
 * @param tw 臺灣正體
 * @return 香港繁體
 */
public static String tw2hk(String tw)
{
    return TaiwanToHongKongChineseDictionary.convertToTraditionalHongKongChinese(tw);
}

共计12种接口。命名规范按照X2Y的形式,X表示源语种,Y表示目标语种。

词库

由于我并没有OpenCC作者那样深厚的繁体中文语言知识,所以这些接口未必能完美地满足广大繁体中文用户的需求,希望大家多多包涵,提出宝贵意见。

所有的词库都是以文本方式维护,命名规则与接口保持一致。不过,词典的文本形式只有如下四种:

s2t.txt         t2hk.txt        t2s.txt         t2tw.txt

类似tw2hk的词典并不存在,tw2hk只存在自动推导出的bin文件,其推导规则为

逆转t2tw得到tw2t
利用t2hk得到tw2hk

推导由HanLP程序控制,用户修改推导过程中用到的四个词典后需要删除推导结果的缓存文件才能生效。其他8种接口的推导过程类似于此,不再赘述。

知识共享许可协议 知识共享署名-非商业性使用-相同方式共享码农场 » HanLP极致简繁转换

分享到:更多 ()

评论 1

  • 昵称 (必填)
  • 邮箱 (必填)
  • 网址
  1. #1

    这才是真正的简繁转换!!

    翅膀的初衷8个月前 (02-04)回复

我的开源项目

HanLP自然语言处理包基于DoubleArrayTrie的Aho Corasick自动机