深度学习模型之BERT的24个小模型源码与预训练紧凑模型的重要性

原始信息

论文： Well-Read Students Learn Better: On the Importance of Pre-training Compact Models
作者：Iulia Turc, Ming-Wei Chang, Kenton Lee, Kristina Toutanova
地址：arxiv.org/pdf/1908.08...
中文：阅读良好的学生学得更好：关于预训练紧凑模型的重要性
源码：见微小BERT模型的源码地址章节

目前24个较小的BERT模型的发布版本，现在只有英语，采用WordPiece掩码。

笔者翻译水平有限，有误之处请指正，万分感激。

摘要

自然语言表征模型的最新发展伴随着庞大而昂贵的模型，这些模型通过自监督的预训练的方式来利于通用领域文本。由于应用此模型的下任务的成本，关于预训练的语言表征模型的几个压缩技术已经被提及(Sun等.,2019a;Sanh,2019) 。然而，令人惊讶的是仅预先训练和微调紧凑型模型的简单基线已经被忽视。在文本中，我们首先展示了较小体系架构中保留预训练的重要性，而且微调预先训练的紧凑模型可以与并行工作中提出的更精细的方法相竞争。从预训练凑型模型开始，我们将探索通过标准知识提取从大的微调模型中转移任务知识，由此产生的简单、有效且通用的算，将给预训练提取带来更多的提升。通过广泛的实验，我们更加普遍的探索了在两个研究不足的变量(模型大小与未标记任务的数据属性)下在预训练与提取之间的相互作用。我们有一个让人吃惊的发现，即使是按序给相同的数据，他们仍然会产生复合效应。为了加快未来的研究，我们公开了24个预训练的微小BERT模型.

介绍

在通用领域文本语料库上的自监督学习，最终任务学习是实现基于深度和广度Transforme网络的两阶段训练方法（Vaswani等.,2017）来促进语言理解（Devlin等，2018；Sun等，019b；Sun等，2019b；Liu等，2019）。然而，最先进的模型有数亿个参数，计算成本很高。我们的目标是在有限的内存和延迟预算下有收获。我们寻求一个性能良好，通用且简单的训练方法，能够利用额外的资源，例如未标记的任务数据。

在考虑压缩技术之前，我们先从以下问题开始：我们能使用同样的两阶段方法训练较小模型么？换一句话说，我们探索了将语言模型预训练和任务微调直接应用于紧凑模型的想法。到目前为止，这个简单的基线一直被NLP社区所忽视，这可能潜在于这样的一个假设，当焦点集中在最终任务而不是通用语言模型的目标时有限能力的紧凑模型会得到更好的资本化。与我们一起提出了标准预训练+微调程序的变体的也有，但通用性有限（Sun等人，2019a；Sanh，2019）。我们惊喜的发现，在最初的公式中进行预训练+微调是构建紧凑模型的一种有竞争力的方法。

从这里开始，我们把它称为预训练提取(PD) 如上图。PD优于预训练+微调（PF）基线，尤其是在存在用于蒸馏的大转移集的情况下。特别是在提取大型转移设置的情况下。在一项对照研究中，遵循并行工作中的数据和模型架构设置，我们展示了预训练蒸馏优于或具有更精细方法的竞争力，这些方法使用更复杂的任务知识提取（Sun等，2019a）或从未标记文本中进行更复杂的预训练（Sanh，2019）时。前者从中级教师激活中提取任务知识，从启发式初始化的学生开始。后者在更大的LM教师的帮助下，对在未标记文本上预先训练的紧凑模型进行微调。

本论文中最值得注意的贡献之一是：就预训练提取及其基线在各种条件下的表现进行了广泛的实验。我们调查先前工作中研究不足的两个要点：模型大小和未标记数据的数量/质量。在对24个不同尺寸（4m至110m参数）的模型进行实验时深度/宽度的权衡，我们观察到，经过预训练的学生更好地利用深度而非宽度，这个属性对于随机初始化的模型是不可见的。对于第二点，我们改变了未标记数据的数量，以及它与标记集的相似性。有趣的是，预训练的取比标准提取对传递集中的这些变化更具鲁棒性。

最后，为了深入了解LM预训练和任务特定提取之间的相互作用，我们在同一数据集上依次进行了这些操作。在这个实验中，尽管单个操作数据集用于这两个步骤，这种复合效应令人惊讶，表明预训练和蒸馏是学习数据的互补方面。在这个实验中，尽管两个步骤都使用了单个数据集，但这两个操作链接起来的性能比单独应用的任何一个都要好。这种复合效应令人惊讶，表明预训练和提取是学习数据的互补方面。

结论

我们进行了大量的实验，以了解知识提炼和预训练+微调算法是如何单独工作的，以及它们如何交互。我们发现他们好处的复合，并且揭示训练训提取的力量。这是一种简单且有效的方法，可以最大限度的利于可用：一个强大的老师，复合数据源(他们的好处是复合的，并揭示了预训练蒸馏的力量，这是一种简单而有效的方法，可以最大限度地利用所有可用的资源：一个强大的老师，以及多个数据源（标记集、未标记转移集和未标记LM集）。

章节说明

INTRODUCTION：介绍（已译）
PROBLEM STATEMENT：问题描述
PRE-TRAINED DISTILLATION：预训练提取
COMPARISON TO CONCURRENT WORK：与并行工作的比较
ANALYSIS SETTINGS：配置分析
ANALYSIS：实验分析
RELATED WORK: 相关工作
CONCLUSION：结论（已译）

微小BERT模型的源码地址

	H=128	H=256	H=512	H=768
L=2	2/128 (BERT-Tiny)	2/256	2/512	2/768
L=4	4/128	4/256 (BERT-Mini)	4/512 (BERT-Small)	4/768
L=6	6/128	6/512	2/512	6/768
L=8	8/128	8/256	8/512 (BERT-Medium)	8/768
L=10	10/128	10/256	10/512	10/768
L=12	12/128	12/256	12/512	-

GLUE分数

相关阅读

深度学习经典模型之BERT(上)
深度学习经典模型之BERT(下）

**参考**

见原论文
部分数据来源于官方源码站 github.com/google-rese...

如果您也对AI大模型感兴趣想学习却苦于没有方向👀

小编给自己收藏整理好的学习资料分享出来给大家💖

👉获取方式：

😝有需要的小伙伴，可以保存图片到wx扫描二v码 关注免费领取【保证100%免费】🆓

👉AI大模型学习路线汇总👈

大模型学习路线图，整体分为7个大的阶段：（全套教程文末领取哈）

第一阶段： 从大模型系统设计入手，讲解大模型的主要方法；

第二阶段： 在通过大模型提示词工程从Prompts角度入手更好发挥模型的作用；

第三阶段： 大模型平台应用开发借助阿里云PAI平台构建电商领域虚拟试衣系统；

第四阶段： 大模型知识库应用开发以LangChain框架为例，构建物流行业咨询智能问答系统；

第五阶段： 大模型微调开发借助以大健康、新零售、新媒体领域构建适合当前领域大模型；

第六阶段： 以SD多模态大模型为主，搭建了文生图小程序案例；

第七阶段： 以大模型平台应用与开发为主，通过星火大模型，文心大模型等成熟大模型构建大模型行业应用。

👉如何学习AI大模型？👈

作为一名热心肠的互联网老兵，我决定把宝贵的AI知识分享给大家。至于能学习到多少就看你的学习毅力和能力了。我已将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

这份完整版的大模型 AI 学习资料已经上传CSDN，朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【`保证100%免费`】

一、全套AGI大模型学习路线

AI大模型时代的学习之旅：从基础到前沿，掌握人工智能的核心技能！

二、640套AI大模型报告合集

这套包含640份报告的合集，涵盖了AI大模型的理论研究、技术实现、行业应用等多个方面。无论您是科研人员、工程师，还是对AI大模型感兴趣的爱好者，这套报告合集都将为您提供宝贵的信息和启示。

三、AI大模型经典PDF籍

随着人工智能技术的飞速发展，AI大模型已经成为了当今科技领域的一大热点。这些大型预训练模型，如GPT-3、BERT、XLNet等，以其强大的语言理解和生成能力，正在改变我们对人工智能的认识。那以下这些PDF籍就是非常不错的学习资源。

四、AI大模型商业化落地方案

作为普通人，入局大模型时代需要持续学习和实践，不断提高自己的技能和认知水平，同时也需要有责任感和伦理意识，为人工智能的健康发展贡献力量。