放牧代码和思想
专注自然语言处理、机器学习算法
    愛しさ 優しさ すべて投げ出してもいい

2017年11月的文章

宾州树库和CTB的Python预处理脚本
句法分析

宾州树库和CTB的Python预处理脚本

阅读(9198)评论(8)

在写句法分析器之前,通常需要将PTB和CTB预处理为: 一行一个句子,单文件; 符合规范比例的训练集/开发集/测试集; 去掉CTB中的xml标签,只保留句子,编码转换。 这些步骤很麻烦,因为通常bracketed的树形结构需要先解析才能转为...

我的作品

HanLP自然语言处理包《自然语言处理入门》