码农场

放牧代码和思想
专注自然语言处理、机器学习算法
    愛しさ 優しさ すべて投げ出してもいい

最新发布 第2页

定个小目标,发它一个亿条微博语料
语料库

定个小目标,发它一个亿条微博语料

阅读(5208)评论(19)

2019最新的微博语料,可用于预训练语言模型Weibo-BERT词向量等。由于比较时新,对网络流行语的建模可能很有帮助。每个压缩包都有两千多万条,一共5个。大家下载之后也算是有一个亿身家的人了,激动吧。感兴趣的同学要不要训练个Weibo-B...

依存句法分析在深度学习中的应用
自然语言处理

依存句法分析在深度学习中的应用

阅读(6677)评论(8)

句法分析是一项核心的NLP任务,目标是获取句子的主谓宾等句法结构。下级应用时,给定依存句法树,传统时代利用规则提取句法树的特征;在深度学习时代,如何提取树的向量表示?本文调研了7种常用模型,涵盖Tree RNN、DCNN和GCN等。 Tre...

中文语义依存分析语料库
自然语言处理

中文语义依存分析语料库

阅读(10222)评论(6)

HanLP 2.0语义分析模块已开源!支持中文语义分析和英文语义分析等。 本文介绍语义依存的语言学知识以及BH中文语义依存语料库的标注规范。 给定一个句子,语义依存分析(Semantic Dependency Parsing,SDP)任务试...

Wu Manber多模式匹配算法
算法

Wu Manber多模式匹配算法

阅读(17632)评论(2)

AC自动机中,转移的最小单位是一个字符。也就是说,匹配后只能移动一个字符,复杂度是线性的$O(n)$。然而线性并非最快,Boyer-Moore算法在匹配后可以跳过多个字符,比线性还快。据说在实践中,利用Boyer-Moore优化的AC自动机...

Structural Learning with Amortized Inference
机器学习

Structural Learning with Amortized Inference

阅读(6354)评论(0)

Chang et al. 2015提出加速结构化学习的近似算法AI-DCD,通过缓存整数线性规划中相似的问题及解,减少对ILP solver的调用次数,从而加速训练,同时不损失精度。 平摊推断 记$\mathbf{y}=\{y_1,y_2,...

简单有效的多标准中文分词
中文分词

简单有效的多标准中文分词

阅读(12448)评论(15)

本文介绍一种简洁优雅的多标准中文分词方案,可联合多个不同标准的语料库训练单个模型,同时输出多标准的分词结果。通过不同语料库之间的迁移学习提升模型的性能,在10个语料库上的联合试验结果优于绝大部分单独训练的模型。模型参数和超参数全部共享,复杂...

宾州树库和CTB的Python预处理脚本
句法分析

宾州树库和CTB的Python预处理脚本

阅读(7620)评论(8)

在写句法分析器之前,通常需要将PTB和CTB预处理为: 一行一个句子,单文件; 符合规范比例的训练集/开发集/测试集; 去掉CTB中的xml标签,只保留句子,编码转换。 这些步骤很麻烦,因为通常bracketed的树形结构需要先解析才能转为...

我的作品

HanLP自然语言处理包《自然语言处理入门》