前沿AI技术体验：从文字直接产生图片,结果真的震撼! 非常有意思！

背景

最近这段时间，大火的文本转图片的模型，不管是 Open AI 的 DALL·E 还是 Goggle 的 Imagen. 单从公布的效果来看，可以说是十分惊艳，让我大受震撼。

https://mp.weixin.qq.com/s/1eZHl6Rzao7SRLbyBsMXng

想要了解其中原理和细节，短时间对我来说可以很困难。有没有什么办法能亲自体验一把这新奇技术呢？不知有多少朋友是和我一样的想法的。好在有大佬已经开发出了网站。

网站体验

https://www.craiyon.com/

该网站背后基于 DALL·E mini, 由 Hugging Face公司的码农2022年6月公开。可以随便玩，输入英文描述，约1分钟就可以产出图片。

初体验

例如输入：a bird in the blue sky 网站便可返回如下图片.

结果还不错！

试试中国古诗

坊间传闻，老外很难能理解中国古诗中意境的美，那我来试试看 DALL·E 能不能“理解”。以： 无边落木萧萧下，不尽长江滚滚来.为例。拿古诗的前半句来试试。这里先将它翻译成下面的英文，输入到网址中:

The boundless forest sheds its leaves shower by shower in autumn

确实，部分图片确实有一种秋风萧瑟的凄凉的感觉

此外还多了几分阴森..

创意设计

既然，模型这么厉害，那么我让她为我的公众号设计一个 logo 看看：

同样，将知行并重 翻译成英文：输入：logo of Knowledge and action should go hand in hand. 得到了如下结果：说实话，非常的 amazing！！！结果超出了我的预期的：不知大家觉得哪张更好？欢迎评论区投票，得票最高的我将其设定为微信公众号的头像。

其他想法

目前，在官网上，生成的图片清晰度十分有限，后面将会借助开源的模型，在本地部署，生成高清的图片。到时我也会再出文章，给大家介绍具体方法，敬请期待。

ps：兴许以后文章的封面，就不用愁了，也不用考虑版权问题。封面自由指日可待～

本篇文章的封面，就是通过 "cover: interesting and breaking news“ 生成的。

总结

今天，通过体验了一把最新的深度学习技术，确实很有意思。下面谈谈几点我对这个技术的看法：

首先，不足方面：

网站生成的图片多数的时候并不会太完美，有时给出的结果甚至有些诡异
生成图片的清晰度很有限。虽然作者建议：在描述时，加上 "illustration", "photorealistic", "high definition" 这些关键词，但实际实验，并没有多少改善。

其次，价值方面：

在学术上 DALL·E 意义无疑是重大的。对于我们普通人来说，DALL·E 给出的结果，时常可以给我们带来惊喜。它可以开阔我们的思路，拓展我们的想象力，尤其是对从事设计、创意的朋友而言。因此，在 DALL·E 的结果基础上进行二次创作也许是个不错的选择。

欢迎在评论区写下你的看法，一起交流。

参考文章

https://zhuanlan.zhihu.com/p/121638712