短短5年内如何飞速发展？

发布时间：2021-04-20 14:38:05 所属栏目：外闻来源：互联网

导读：E(Salvador Dal和WALL-E名字的结合)公之于众，甚至也尚未邀请其特定开发者群体来试用新软件，但据其网站上的案例所示，该系统可以创建极其逼真且细致的图像。 DALL-E精通各种艺术风格，包括插图和风景画。它还可以生成文本，在建筑物上进行标记，并将同一场

E(Salvador Dalí和WALL-E名字的结合)公之于众，甚至也尚未邀请其特定开发者群体来试用新软件，但据其网站上的案例所示，该系统可以创建极其逼真且细致的图像。

DALL-E精通各种艺术风格，包括插图和风景画。它还可以生成文本，在建筑物上进行标记，并将同一场景的素描线条和全彩图像分离。研究人员把这种影响深远的能力称为泛化能力，即算法并非专门针对某一种任务或艺术风格。

OpenAI将算法的神通广大归功于两个主要因素：其一，算法非常庞大。它使用了120亿个参数，数量大到令人惊异。而这些参数可以被认为是算法转动的旋钮，用来调整其理解想法的方式。这120亿个参数在分析图像和文本时能够分辨出诸多特异性，令人难以置信。

然后，这些图像和文本材料被输入到算法中，并且被翻译成更易于算法理解的标记或文本。OpenAI解释说，一个标记就像英语字母表中的一个字母——它们代表碎片化的概念，这一方式更易于机器计算，并且以它们以算法的语言模式排列。

这一机器字母表包含16384个文本标记和8192个图像标记。这种将人类可读文本自动转换为机器可读文本的方法称为“转换器模型”。一个字幕或带有文本的图像转换为算法，最多会被翻译成256个标记，而图像最多能被翻译成1024个标记。这使得算法能够为相对较少的文本输入匹配到更复杂的图像。

之后，算法将通过分析成对的图像和字幕不断进化。通过表面上数百万次迭代，它能够将文本片段与图像的特定特征联系起来。但OpenAI还未公布这一数据集的容量或其包含的图像内容。

该公司并不是第一个尝试从文本中生成图像的公司，甚至这也不是OpenAI的首次尝试。这只是此类算法的最新版本，似乎也是最可行的一个版本。虽然该公司还未发表过任何文章来描述该系统，但这一算法的创造者确实曾在其博客上引用了DALL-E的前置任务。

通过对算法的沿袭进行考察，我们可以追踪到这项技术实际上的发展程度。

2016

OpenAI引用了这篇由密歇根大学和马普研究所撰写的论文，为当前文本到图像生成的研究注入了活力。

这篇论文使用了生成式对抗网络(generative adversarial networks generative，简称GANs)来生成图像。GANs的功能是将两种算法相互对立：一种生成图像，另一种将不够真实的图像驳回。底，美国人工智能艾伦研究所发表了一项使用转换器模型的研究，与OpenAI使用的转换器模型相同。艾伦研究所的研究人员没有追求模型的规模，而是依赖于“隐蔽”。

在《麻省理工学院科技评论》上有一篇文章详细解释了这一概念，Karen Hao将“隐蔽”描述为“把不同的单词隐藏在句子中，让模型填补空白”。算法掌握这些直观性跳跃后，研究者发现生成的图像质量得到显著提升。

（编辑：江门站长网）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!

各路厂商花式进局，打	IonQ宣布新的钡量子位
新漫评看，美式民主的	年内跌幅近40%，木头姐