EDA：最简单的自然措辞处理数据增广方法_句子_数据

文章目录 [+]

These are the Easiest Data Augmentation Techniques in Natural Language Processing you can think of — and they work.

作者 | Jason Wei

EDA：最简单的自然措辞处理数据增广方法_句子_数据 EDA：最简单的自然措辞处理数据增广方法_句子_数据互联网

翻译 | AI小山

（图片来自网络侵删）

校正 | 酱番梨审核 | 约翰逊·李加薪整理 | 立鱼王

原文链接：

https://towardsdatascience.com/these-are-the-easiest-data-augmentation-techniques-in-natural-language-processing-you-can-think-of-88e393fd610

数据增广常用于打算机视觉。
在视觉领域，你险些肯定可以翻折、旋转或镜像一幅图片，而不用担心它的标记发生变革。
然后，在自然措辞处理（NLP）领域，情形完备不同。
改变一个词有可能改变全体句子的意思。
以是，没有大略的方法能做到数据增广。
真的是这样么？

我向你先容EDA：大略数据增广技能，可以大大提升文本分类任务的性能（在EDA Github repository有大略的实当代码）。
EDA包含四个大略操作，能极好地防止过拟合，并演习出更强健的模型，分别是：

同义词更换：在句子中随机选取n个非停用词。
对每个选取的词，用它的随机选取的同义词更换。

随机插入：在句子中任意找一个非停用词，随机选一个它的同义词，插入句子中的任意位置。
重复n次。

随机交流：任意选取句子中的两个词，交流位置。
重复n次。

随机删除：对付句子中概率为p的每一个词，随机删除。

这些技能真有效吗？出乎猜想，答案是肯定的。
只管天生的某些句子有点怪异，但是在数据集中的引入一些噪声，对付演习出一个健壮的模型来说，是极有好处的，特殊是数据集比较小的时候。
这篇论文指出，在5个文本分类任务的比拟测试中，基于险些所有大小的数据集，利用EDA都击败了常规演习方法，在演习数据集较小的时候，表现尤其突出。
均匀来说，用EDA演习一个循环神经网络（RNN），只需50%的演习数据，即可达到常规方法同等的精度。

文本分类任务的性能表现，相对付演习集的利用百分比。
利用EDA（大略数据增广），在小数据集时，远胜常规方法。

EDA会保留增广句子的真实标记吗？

我知道你在考试这个问题。
真的能在做增广操作的同时，保留其真实标记吗？我们用画图形的方法来验证一下。

假设你演习一个关于产品的正面、负面评价的RNN，利用常规和增广的句子都跑一遍，抽取神经网络的末了一层，用sTNE画一个潜在空间图：

ProCon数据集原生及增广句子的潜在空间图

可以看到增广句子的潜在空间图牢牢环绕着原生句子！
这表明所天生的增广句子极大可能的保留了原始句子的标记。
雷锋网雷锋网雷锋网

这些操作都有效吗？

现在，我们来看看数据增广技能中每个单独操作的效果是什么样的。
同义词更换好理解，但是其余三个操作真的起浸染吗？我们可以做一个实验，单独做个中一种操作，并代入不同的α值，参数α大致可理解为“句子中被改变的单词的百分比”：

在不同大小的数据集下，比拟其它五种文本分类方法，EDA操作的均匀性能增益。
参数α大致可理解为“句子中被每种增广操作改变的单词的百分比”。
SR：同义词更换。
RI：随机插入。
RS：随机交流。
RD：随机删除。

你能看到，在小数据集时，性能增益非常大，达到大约2-3%，数据集大的时候，增益变小（~1%）。
但是，各项操作综合起来，如果设置的增广参数合理（句子中改变的单词不超过四分之一），能使演习出的模型更健壮。

做多少增广？

末了，对付一个真实句子，我们该当增广出多少句子呢？答案取决于你的数据集的大小。
如果你的数据集很小，很可能会涌现过拟合，此时你该当天生多一些的增广句子。
如果数据集比较大，增加太多的增广句子，意义不大，由于原有的数据已经能演习出一个好的模型了。
这个图表显示了相对付每个原生句子天生的增广句子的数量的性能增益：

不同大小的数据集下全部五种文本分类任务的EDA均匀性能增益。
n_aug表示每原生句子天生的增广句子的数量。

下一步？

我们已经演示了在文本分类中，大略数据增广能显著提升性能。
如果你正用小数据集演习一个文本分类器，并想取得更好的效果，请在模型中编程实现这些操作，或者从Github中下载EDA代码。
更多详情请查看原文。

想要连续查看该篇文章干系链接和参考文献？

点击【EDA：最大略的自然措辞处理数据增广方法】即可访问：

https://ai.yanxishe.com/page/TextTranslation/1644

AI研习社今日推举：2019 最新斯坦福 CS224nNLP 课程

自然措辞处理（NLP）是信息时期最主要的技能之一，也是人工智能的关键部分。
NLP的运用无处不在，由于人们险些用措辞进行互换：网络搜索，广告，电子邮件，客户做事，措辞翻译，医学报告等。
近年来，深度学习方法在许多不同的NLP任务中得到了非常高的性能，利用单个端到端神经模型，不须要传统的，任务特定的特色工程。
在本课程中，学生将深入理解NLP深度学习的前沿研究。

课程链接：https://ai.yanxishe.com/page/groupDetail/59