企业应该如何建立自己的防御体系

发布时间：2021-02-06 17:25:58 所属栏目：外闻来源：互联网

导读：Bort：BERT 的「最优」子架构 Bert 是一种基于 transformer 的双向全连接架构，它包括一个依赖于词汇量的嵌入层（BERT 的词汇量 V = 28,996 tokens）、包含 Transformer 的 D 编码器层，以及一个输出层。BERT 架构刚推出时有两个变体： BERT-large（D = 24

Bort：BERT 的「最优」子架构

Bert 是一种基于 transformer 的双向全连接架构，它包括一个依赖于词汇量的嵌入层（BERT 的词汇量 V = 28,996 tokens）、包含 Transformer 的 D 编码器层，以及一个输出层。BERT 架构刚推出时有两个变体：

BERT-large（D = 24 编码器层、A = 16 注意力头、H = 1,024 隐藏层大小、I = 4,096 中间层大小）；

BERT-base（D =12、A = 12、H = 768、I = 3072）。

在形式上，令 Ξ 表示包含四元组（即架构参数）数值有效组合的有限集合。与 de Wynter (2020b) 的研究一致，该研究将 BERT 架构族描述为某个函数的陪域（codomain），如下公式 1 所示：

算法

该研究想要找出一个架构参数集 ξ = ，对推理速度 i(b(X; ·))、参数量 p(b(·; W) 和误差率 e(b(X; W^∗ ), Y ) 这三个度量指标进行优化。

de Wynter (2020b) 表明，对于任意架构而言，这都是一个 NP-Hard 问题。de Wynter (2020b) 中的 FPTAS 是一种近似算法，该算法依赖于对 i(·)、p(·) 和 e(·, ·) 代理函数的优化，这三个代理函数分别表示为 iˆ(·)、pˆ(·) 和 eˆ(·, ·)。执行过程中将它们表示为 Ξ 的函数，并通过选择一个参数最多、推理时间最长的架构 T∈B（T 被称为极大点，maximum point）和 W - 系数指标对它们进行标量化处理，具体如下公式 2 所示：

尽管 FPTAS 可以确保找到表现最优的架构，但它返回的是在上述三个指标上表现最优的架构参数集，而不会输出一个训练到收敛的架构。因此，研究者对 Bort 进行了预训练，发现与原先的训练相比，预训练速度有了明显的提高：在相同的 GPU、数据集大小也相当的情况下，Bort 训练了 288 小时，BERT-large 训练了 1153 小时，而 RoBERTa-large 训练了 24,576 小时。

研究者还在 GLUE、SuperGLUE 以及 RACE 公共 NLU 基准上对 Bort 进行了评估。结果表明，与 BERT-large 相比，Bort 在所有这些基准上都获得了显著提高，提升幅度从 0.3% 到 31% 不等。

在自然语言处理领域，BERT 是一个里程碑式的进展。只需要添加一个单层线性分类器和一个简单的微调策略，它就能在多项任务中达到优异的性能。但另一方面，BERT 的应用也面临很多问题，如规模大、推理速度慢、预训练过程复杂。研究人员已经做了许多尝试来提取一个更简单的子架构，希望这个子架构能够保持原始 BERT 的优异性能，同时简化预训练过程，缩短推理时间。这些研究取得了不同程度的成功。然而，他们提取的这些子架构在准确率方面仍然低于原始架构的实现，而且架构参数集的选择往往看起来很随意。

虽然这个问题在计算上很难解决，但 de Wynter 最近的一项研究表明：存在一种近似算法——更具体地说，一种完全多项式时间近似模式（FPTAS）——在一定条件下能够有效地提取出具有最优保证的此类集合。

在本文中，来自 Amazon Alexa 团队的研究者将提取 BERT 最优子架构参数集这一问题细化为三个指标：推断延迟、参数大小和误差率。该研究证明：BERT 具备 strong AB^nC 属性，可满足这些条件组合，使上述算法表现得像 FPTAS。然后，研究者从一个高性能的 BERT 变体中提取了一个最优的子架构，称为 Bort，其大小是 BERT-large 的 16%，在 CPU 上的推理速度提升到原来的 8 倍。

（编辑：江门站长网）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!

各路厂商花式进局，打	IonQ宣布新的钡量子位
新漫评看，美式民主的	年内跌幅近40%，木头姐