白杨数说DALLmiddotE从

北京哪家医院白癜风专科最好 https://wapjbk.39.net/yiyuanfengcai/tsyl_bjzkbdfyy/

继GPT-3（一个能够通过训练自主生成网页、图表、代码、文本、推理等功能的强大NLP模型）之后，OpenAI又训练了一个名为DALL·E的神经网络。DALL·E是GPT-3的亿参数版本，经过训练可以使用文本-图像对的数据集从自然语言的文本描述中生成图像。年1月，OpenAI发布了DALL·E的官方论文和代码，也由此打破了自然语言与视觉的壁垒。

为什么叫“DALL·E”？这种利用文本描述就可以实现图像创建的功能是如何实现的？它又有哪些具体的属性和能力？下面我们就来详细了解一下这个令人瞠目的图像生成AI吧！

（点击文末“阅读原文”可跳转至OpenAI发表的官方介绍网页，内含官方论文与代码）

一

为什么是“DALL·E”？

DALL·E的开发让机器也能拥有顶级艺术家、设计师的创造力。而“DALL·E”这个名字也正是代表了艺术与机器的结合——向艺术家萨尔瓦多·达利（SalvadorDali）和皮克斯《机器人总动员》中的WALL-E致敬。

艺术家萨尔瓦多·达利（SalvadorDali）

皮克斯《机器人总动员》中的WALL-E

二

DALL·E是怎样工作的？

与GPT-3一样，DALL·E是一个Transformer语言模型（transformerlanguagemodel）。它将文本和图像作为单个数据序列接收，通过Transformer进行自回归。（如下图）

DALL-E的整体架构

首先，对于库中数量庞大的一系列候选图片，DALL·E训练了一个dVAE模型来降低图片的分辨率，从而解决计算量的问题。

当我们输入文本后，DALL·E利用BPEEncoder对文本进行编码，得到最多个文本标记，然后将个文本标记与个图像标记进行拼接，得到长度为的数据，再将拼接的数据输入Transformer中进行自回归训练。

在最后的推理阶段中，它通过预训练好的CLIP模型计算出文本和一系列候选图片的匹配分数，采样越多数量的候选图片，就可以通过CLIP得到不同采样图片的分数排序，最终找到跟文本最匹配的图片。

具体训练过程和工作机制详见OpenAI发表的官方论文：Zero-ShotText-to-ImageGeneration

（

转载请注明：http://www.jituant.com/djhw/10448.html

上一篇文章：年香烟价格泰山儒风系列烟,最爱
下一篇文章：没有了