放牧代码和思想
专注自然语言处理、机器学习算法
    博主不用扣扣,公事请博客留言,私事请微博私信。开源项目一律GitHub见,发错地方恕不回复,谢谢。

2017年11月的文章

宾州树库和CTB的Python预处理脚本
句法分析

宾州树库和CTB的Python预处理脚本

hankcs阅读(255)评论(3)

在写句法分析器之前,通常需要将PTB和CTB预处理为: 一行一个句子,单文件; 符合规范比例的训练集/开发集/测试集; 去掉CTB中的xml标签,只保留句子,编码转换。 这些步骤很麻烦,因为通常bracketed的树形结构需要先解析才能转为...

我的开源项目

HanLP自然语言处理包基于DoubleArrayTrie的Aho Corasick自动机