大便失禁怎么回事

白杨数说DALLmiddotE从


北京哪家医院白癜风专科最好 https://wapjbk.39.net/yiyuanfengcai/tsyl_bjzkbdfyy/

继GPT-3(一个能够通过训练自主生成网页、图表、代码、文本、推理等功能的强大NLP模型)之后,OpenAI又训练了一个名为DALL·E的神经网络。DALL·E是GPT-3的亿参数版本,经过训练可以使用文本-图像对的数据集从自然语言的文本描述中生成图像。年1月,OpenAI发布了DALL·E的官方论文和代码,也由此打破了自然语言与视觉的壁垒。

为什么叫“DALL·E”?这种利用文本描述就可以实现图像创建的功能是如何实现的?它又有哪些具体的属性和能力?下面我们就来详细了解一下这个令人瞠目的图像生成AI吧!

(点击文末“阅读原文”可跳转至OpenAI发表的官方介绍网页,内含官方论文与代码)

为什么是“DALL·E”?

DALL·E的开发让机器也能拥有顶级艺术家、设计师的创造力。而“DALL·E”这个名字也正是代表了艺术与机器的结合——向艺术家萨尔瓦多·达利(SalvadorDali)和皮克斯《机器人总动员》中的WALL-E致敬。

艺术家萨尔瓦多·达利(SalvadorDali)

皮克斯《机器人总动员》中的WALL-E

DALL·E是怎样工作的?

与GPT-3一样,DALL·E是一个Transformer语言模型(transformerlanguagemodel)。它将文本和图像作为单个数据序列接收,通过Transformer进行自回归。(如下图)

DALL-E的整体架构

首先,对于库中数量庞大的一系列候选图片,DALL·E训练了一个dVAE模型来降低图片的分辨率,从而解决计算量的问题。

当我们输入文本后,DALL·E利用BPEEncoder对文本进行编码,得到最多个文本标记,然后将个文本标记与个图像标记进行拼接,得到长度为的数据,再将拼接的数据输入Transformer中进行自回归训练。

在最后的推理阶段中,它通过预训练好的CLIP模型计算出文本和一系列候选图片的匹配分数,采样越多数量的候选图片,就可以通过CLIP得到不同采样图片的分数排序,最终找到跟文本最匹配的图片。

具体训练过程和工作机制详见OpenAI发表的官方论文:Zero-ShotText-to-ImageGeneration




转载请注明:http://www.jituant.com/djhw/10448.html


当前时间: