北京哪家医院白癜风专科最好 https://wapjbk.39.net/yiyuanfengcai/tsyl_bjzkbdfyy/继GPT-3(一个能够通过训练自主生成网页、图表、代码、文本、推理等功能的强大NLP模型)之后,OpenAI又训练了一个名为DALL·E的神经网络。DALL·E是GPT-3的亿参数版本,经过训练可以使用文本-图像对的数据集从自然语言的文本描述中生成图像。年1月,OpenAI发布了DALL·E的官方论文和代码,也由此打破了自然语言与视觉的壁垒。
为什么叫“DALL·E”?这种利用文本描述就可以实现图像创建的功能是如何实现的?它又有哪些具体的属性和能力?下面我们就来详细了解一下这个令人瞠目的图像生成AI吧!
(点击文末“阅读原文”可跳转至OpenAI发表的官方介绍网页,内含官方论文与代码)
一
为什么是“DALL·E”?
DALL·E的开发让机器也能拥有顶级艺术家、设计师的创造力。而“DALL·E”这个名字也正是代表了艺术与机器的结合——向艺术家萨尔瓦多·达利(SalvadorDali)和皮克斯《机器人总动员》中的WALL-E致敬。
艺术家萨尔瓦多·达利(SalvadorDali)
皮克斯《机器人总动员》中的WALL-E
二
DALL·E是怎样工作的?
与GPT-3一样,DALL·E是一个Transformer语言模型(transformerlanguagemodel)。它将文本和图像作为单个数据序列接收,通过Transformer进行自回归。(如下图)
DALL-E的整体架构
首先,对于库中数量庞大的一系列候选图片,DALL·E训练了一个dVAE模型来降低图片的分辨率,从而解决计算量的问题。
当我们输入文本后,DALL·E利用BPEEncoder对文本进行编码,得到最多个文本标记,然后将个文本标记与个图像标记进行拼接,得到长度为的数据,再将拼接的数据输入Transformer中进行自回归训练。
在最后的推理阶段中,它通过预训练好的CLIP模型计算出文本和一系列候选图片的匹配分数,采样越多数量的候选图片,就可以通过CLIP得到不同采样图片的分数排序,最终找到跟文本最匹配的图片。
具体训练过程和工作机制详见OpenAI发表的官方论文:Zero-ShotText-to-ImageGeneration
(
转载请注明:http://www.jituant.com/djhw/10448.html