175篇论文告诉你深度学习er能从NeurIPS 2020论文学到什么?

来源:新智元

让我们一起看看深度学习er都能学习到什么:

1、加速基于Transformer的语言模型的逐层下降训练

与标准翻译器相比,可切换翻译器(ST)的预训练速度快2.5倍。

配备可切换门(G在fg。下面),一些层是根据伯努利分布抽样0或1随机跳过的,每个抽样的时间效率为25%。

(a)标准变压器(b)重新排序,使其PreLN (c)开关门(G)决定是否包含层。

结果表明,该方法在减少了53%的训练样本的情况下,达到了与基线相同的验证误差。

结合时间和样本效率,预训练的速度比下游任务快2.5倍,有时甚至更好。

小贴士:当你想要预训练或finetune一个转换器时,试着使用可切换的转换器,以获得更快的训练和低推理时间

2、用于神经网络抗噪声标签的Robust训练的核心集

前面已经证明,神经网络权值(W)和干净数据(X)的雅可比矩阵经过一定的训练后会近似为一个低秩矩阵,有一些较大的奇异值和大量非常小的奇异值。

同样,归纳(即从干净的数据中)的学习是在一个叫做信息空间(I)的低维空间中,而不归纳(即从嘈杂的标签中,主要是记忆)的学习是在一个叫做讨厌的空间(N) Nuisance space的高维空间中。

目前的工作引入了一种技术,该技术可以创建一组大部分干净的数据(Coresets)来训练模型,并显示在有噪声的数据集上的性能显著提高,即与最先进的技术相比,在带有50%噪声标签的迷你Webvision上性能提高了7%

在这篇论文中介绍的方法,CRUST,表现明显优于最先进的。

小贴士:当你怀疑你收集的数据集有噪声/错误标记的数据点时,使用CRUST只在干净的数据上训练模型,提高性能和稳定性。

3、基于预训练BERT网络模型的彩票假设

在训练过程相同的情况下,存在一个表现出与原始完整网络相当性能的子网络。这些子网被称为彩票,并由掩码定义,掩码告诉哪些权重在原始网络中被置零。

目前的工作采用迭代幅度修剪(IMP),对一个子网进行一定时间的训练,并对k%较小幅度的权重进行修剪。这个过程重复多次,直到稀疏度达到目标稀疏度。重要的是,在每次迭代训练之后,模型将以初始参数重新开始,而不是更新权重直到那时,这被称为倒带。

这里,预先训练的BERT的权值是我们开始IMP时的初始化。彩票是预先训练的BERT的子网络也包含相同的预先训练的权值,其中一些被置零。

这项工作表明彩票假设对预先训练的BERT模型同样适用。并发现在一系列下游任务中,子网的稀疏度为40%到90%。

最后一行对应于本文所介绍的方法。即使它是40%-90%的稀疏,性能可与完整的Bert base相媲美

此外,作者还发现了一个预训练的具有70%稀疏性的BERT票,它可以转移到许多下游任务中,并且执行得至少与为特定下游任务发现的70%稀疏票一样好或更好。

小贴士:研究NLP的深度学习工程师必须经常对BERT进行下游任务的预先训练。不是从全尺寸的BERT开始,而是从在MLM下游任务(倒数第一行)上找到的70%稀疏彩票开始fine-tuning,以更快地训练并减少推理时间和内存带宽,而不损失性能。

4、MPNet:语言理解预先训练的掩蔽和排列

MPNet是隐藏语言建模(MLM)和自回归排列语言建模(PLM)的混合,采用了各自的优点,并避免了它们的局限性。

屏蔽语言建模,就像BERT风格的模型一样,屏蔽掉约15%的数据,并试图预测那些屏蔽标记。由于掩蔽令牌之间的依赖关系没有建模,导致了预训练-微调差异,这被称为输出依赖。

另一方面,自回归建模交换语言,如XLNet,没有完整的信息输入句子,即当预测说第五元素8-element序列模型并不知道有8序列中的元素,因此导致pre train-finetune差异(模型看到整个输入句子/段下游任务),称为输入一致性。

MPNet将两者结合起来。通过在句子末尾添加额外的掩码来修改类似xlnet的体系结构,以便在任何位置的预测将涉及N个标记,其中N是序列的长度,其中一些是掩码。

说明了MPNet是如何将传销和PLM结合在一起的。

他们使用XLNet中引入的双流自我注意来支持自回归类型预测,在这一步,任何位置的内容都应该被掩盖以进行预测,但在后面的步骤中,预测应该是可见的。

与之前最先进的预训练方法(如BERT、XLNet、RoBERTa)相比,MPNet比MLM和PLM表现更出色,在GLUE、SQUAD等任务上的表现也更好。

小贴士:如果你曾经想要在你的领域特定数据上预先训练一个语言模型,或者使用更多的数据,可以使用MPNet,它已经被证明具有最好的MLP和PLM世界。

5、使用边缘排名下的区域识别错误标记的数据

在大规模数据集中,错误标记的数据是常见的,因为它们是“众包”或从互联网上抓取的,容易产生噪声。

这项工作形成了一个简单直观的想法。假设有100张狗的图片,但其中20张被标记为“鸟”。同样的,100只鸟的图片,但其中20只被贴上了“狗”的标签。

经过一些训练后,对于一张错误标记为“鸟”的狗的图像,模型给出了相当大的概率标记为“狗”,因为从80张正确标记的图像中归纳出来。这个模型也给出了“鸟”这个标签的相当大的可能性,因为它记住了那20个错误标记的图像。

现在,“狗”的概率和“鸟”的概率之间的差异被称为“边缘区域”(AUM)。本研究建议,如果AUM低于某个预先定义的阈值,我们应该将其视为错误标记的数据样本,并将其从训练中删除。

如果我们不能确定一个阈值,我们可以故意填充错误标记的数据,看看这些例子的AUM是什么,这就是我们的临界值。

在WebVision50分类任务中,该方法删除了17%的训练数据,测试错误减少了1.6%(绝对)。在CIFAR100上删除13%的数据会导致误差下降1.2%。

小贴士:在创建数据集时,噪声/错误标记的数据样本大多是不可避免的。然后,使用AUM方法找到错误标记的数据样本,并将其从最终的训练数据集中删除。

6、重新思考标签对于改善课堂不平衡学习的价值

当现有的标签是不平衡的类(有些类比其他类有更多的带标签的例子),并且我们有很多未带标签的数据时,我们还需要标签吗?

积极的(positive)。是的,我们需要标签。对未标记的数据进行自我训练,你将会获得成功。(自我训练是一个过程,中间模型是在人类标记的数据上训练的,用来创建“标签”(或伪标签),然后最终模型是在人类标记和中间模型标记的数据上训练的)。

消极的(negative)。我们可以把标签去掉。可以对所有可用数据使用自我监督的预训练,以学习有意义的表示,然后学习实际的分类任务。结果表明,该方法提高了性能

小贴士:如果你有类别不平衡的标签和更多的未标记数据,那么就进行自我训练或自我监督的预训练吧。(尽管CIFAR-10-LT显示了自我训练胜过自我监督学习)。

7、Big Bird:长序列翻译

标准翻译器的自注意是二次复杂度(存储和计算)wrt序列长度。因此,训练较长的序列是不可行的。

在Big Bird中,它使用稀疏注意,其中一个特定位置只关注几个随机选择的token和一些邻近的token。

但这并不是它工作的原因。Big Bird有多个用于处理整个序列的CLS标记。任何位置的标记都会处理这些CLS标记给它们相关的上下文、依赖关系,谁知道自我注意层还能学到什么呢。

不同类型的注意在稀疏注意(a)随机注意(b)窗口邻域注意(c)添加CLS令牌后的全局注意。(图片摘自本论文的pdf版本。)

“Big Bird稀疏的注意力可以处理长达8倍于之前使用类似硬件的序列。由于能够处理更长的上下文,Big Bird大大提高了各种NLP任务的性能,如回答问题、总结和基因组数据的新应用。”

小贴士:如果你要处理较长的句子或序列,比如摘要或基因组数据的应用,请使用Big Bird进行可行的训练和合理的推理时间。即使是更小的句子,也要用Big Bird。

8、通过权重共享来改进自动增重

为特定任务选择一系列转换及其大小进行数据扩展是特定领域的,而且很耗时。

自动增强是一种学习最佳转换序列的技术,其回报是否定验证损失。通常使用RL来学习该策略。学习这个最优策略的一次迭代需要完全训练一个模型,因此是一个非常昂贵的过程。

因此,目前的工作试图使这个过程更有效。这是基于之前所展示的洞察力,当训练有一系列的转换时,转换的效果只在训练的后期阶段突出。

在当前的工作中,对于评估特定策略(转换序列)的每次迭代,大部分的培训都使用共享策略完成,只有培训的最后一部分是使用要评估的当前策略完成的。这被称为增广加权共享。

当使用共享策略的训练在所有迭代中只进行一次时,该方法可以有效地学习最优策略。

在CIFAR-10上,该方法的错误率最高为1.24%,是目前在没有额外训练数据的情况下表现最好的单一模型。在ImageNet上,该方法的错误率最高,为ResNet-50的20.36%,这导致了比基线增强的绝对错误率减少3.34%。”

小贴士:当你有资源使用最优的数据增强序列来提高模型的性能时,使用这种方法来训练RL代理,它学习最优策略,这更有效,也使自动增强在大型数据集上可行。

9、集中注意力的快速翻译

和上面的Big Bird一样,快速翻译近似于标准的自我关注,使其从二次依赖性变为线性。

为了做到这一点,不是对所有的注意力进行计算(O(sequence_length*sequence_length)),而是对查询进行聚类,并且只对centroids计算注意力值。

一个特定集群中的所有查询都将获得相同的关注值。这使得整体计算的自我注意线性wrt序列长度。O (num_clusters * sequence_length)。

“这篇论文表明,Fast transformer可以用最少的集群来近似任意复杂的注意力分布,方法是在GLUE和SQUAD基准上近似预训练的BERT模型,只有25个集群,并且没有性能损失。”

小贴士:这并不像我们在上面看到的Big Bird那样优雅,但一个人必须尝试所有的选择,把自我关注的二次复杂性变成线性的。

10、自我关注的深度限制和效率

在缩放转换器时,经验表明增加宽度(内部表示的维度)与增加深度(自我注意层数)同样有效。

相反,更具体地说,这项工作表明,我们可以将转换器缩放到“深度阈值”,即以宽度的3为底的对数。如果深度低于此深度阈值,则增加深度比增加宽度更有效。这被称为深度效率。

如果深度高于这个深度阈值增加深度会比增加宽度造成伤害。这被称为深度无效率。

小贴士:当你想为下一个大型语言模型扩展翻译架构时,请记住,如果宽度不够大,增加深度也无济于事。深度应该总是小于“深度阈值”,即以3为底的宽度的对数。所以,在增加深度之前先增加宽度,以使你的转换器达到近乎疯狂的深度

综上,正如小贴士所呈现的那样,通过阅读NeurIPS2020论文,我们获得了这些模型训练技巧,在深度学习的路上越走越远。

PC4f5X

文章作者信息...

留下你的评论

*评论支持代码高亮<pre class="prettyprint linenums">代码</pre>

相关推荐