文 /腾讯科技 郭晓静、郝博阳
北京时间9月21日凌晨,OpenAI 宣布企生成式AI艺术平台DALL-E的第三个版本——DALL-E 3已经进入研究预览阶段,并将于10月通过API提供给ChatGPT Plus的用户和企业客户。
一、改变人机交互方式,AI作画更简单
DAll-E 3最大的意义在于,它改变了人与AI交互的方式。你只需要向ChatGPT提问,告诉它你想看到什么,ChatGPT就会根据你的需求,生成为Dall-E 3定制的详细提示。这降低了复杂提示语对使用AI进行艺术创作的高门槛,不仅对 Dall-E 来说是向前迈出的一大步,对整个生成人工智能艺术来说也是如此。OpenAI 表示,“与ChatGPT的这种联系让更多的人能够创作人工智能艺术,因为他们不必非常擅长提出提示。”
Dall-E3更像是把ChatGPT作为人类的一个助手,人类和ChatGPT沟通、并和ChatGPT一起头脑风暴,ChatGPT把人类的想法翻译成更能让Dall-E 3理解的”提示语“,最终让人类的想法能得到AI更精确的实现。
Dall-E3 还允许用户通过 ChatGPT 完善创作,就好像他们要求真正的艺术家进行更改一样。“你真的不必担心很长的提示,”首席研究员兼 Dall-E 团队负责人 Aditya Ramesh 说。“相反,您可以与 ChatGPT 进行交互,就像与同事交谈一样。”
OpenAI Twitter的官网上还发布了演示视频,详细展示如何操作:
首先,在ChatGPT的界面上输入提示词,之后ChatGPT会返回四张生成的图片。就如Aditya Ramesh 所说,如果你不满意,还可以让ChatGPT进行修改。
二、
让图文生成言出法随,细节绘制效果炸裂
除了提示词非常复杂之外,对于经常使用 Stable Diffusion 或 Midjourney 的AI画师来讲,很多时候提示就像炼丹,模型生成的画面总有和你的提示对不上的地方。这在很大程度上反映出文字生成图像AI对于文字与图像之间对应关系存在着理解误差,会倾向于忽略单词或描述。在这方面,从Dalle 2开始就采用Clip技术建立了图像到文字映射编码的OpenAI做出了新的突破:言说即所得。你进行提示的自然语言中的所有细节都和生成内容能够一一对应。
在OpenAI给出的展示中,你可以看到提示词中所有的细节都被精准地被还原了出来。
但在OpenAI给出的示例图中,其实我们也看到了一些缺乏对应细节的情况:比如这张宝藏沉船图里压根儿就没有宝藏。
除了简化“提示工程”,让人和机器的对话门槛更低,DALL·E 3还可以准确地表示具有特定对象和它们之间关系的场景。在生成图像中的文本以及手部等人体细节方面,DALL·E 3相比DALL·E 2有显著的改进。
在同样提示词下,Dalle-2和Dalle-3的细节表现明显
以下这张图像由 Dall-E 3 渲染,Dall-E 3 首先根据以下提示生成了这张图像:“一幅由半透明玻璃制成的人类心脏的插图,站在波涛汹涌的大海中的基座上。阳光穿透云层,照亮心灵,露出里面的小宇宙”。“找到你内心的宇宙”这句话被用粗体字母蚀刻在地平线上。”我们可以清晰地看到这张图像透明的质感,以及清晰的文字。
AI 艺术由 OpenAI 提供
三、版权争议仍在,OpenAI回应
关于争议最大的版权问题,该公司的政策研究员Sandhini Agarwal表示,她对其安全措施“非常有信心”,但OpenAI在官网澄清说,”该模式不断改进,并不完美“。OpenAI的代表在一封电子邮件中表示,DALL-E 3已经接受了拒绝”以在世艺术家的风格“生成图像的训练。不同于DALL-E 2,当提示时,DALL-E 2还可以模仿某些在世艺术家的风格。
为了避免诉讼,OpenAI还将允许艺术家从未来版本的文本到图像AI模型中选择自己的艺术。创作者可以在其网站上提交一张他们拥有权利的图片,并以表格形式要求删除。DALL-E的未来版本可以阻止看起来与艺术家的图像和风格相似的结果。艺术家起诉DALL-E的竞争对手Stability AI和Midtravel,以及艺术网站DeviantArt,指控他们使用受版权保护的作品训练文本到图像模型。
图为 Reddit上关于DALL-E版权问题的讨论
四、外界可能再也看不到DALL-E3的技术细节了
Dall-E 是皮克斯角色 Wall-E 和艺术家萨尔瓦多·达利 (Salvador Dalí) 的合成词,OpenAI于 2021 年对外界宣布了DALL-E 。DALL-E可以将自然语言形式表达的大量概念转换为恰当图像。
DALL-E根据提示语生成的图片(来源于OpenAI 官网)
2022年4月,DALL-E2发布,根据OpenAI的官网介绍,DALL-E2在对提示语反应的准确度,及照片的真实度上,都有大幅提升。并同时公开了关于DALL-E2的论文《Hierarchical Text-Conditional Image Generation with CLIP Latents》,在其中OpenAI的底层技术Clip编码和GLIDE优化扩散模型的细节都得到了完整的披露。
很遗憾的是,时隔一年半,DALL-E3终于要面世,然而我们还未在官网上找到OpenAI公布的任何技术细节,而且很有可能不会再被公开。
不管怎样,DALL-E3的推出,及其与ChatGPT的集成,让外界继续看到了OpenAI在多模态的进展中迈出一步。就在两周前,据外媒报道,OpenAI的全新多模态模型Gobi似乎已经在筹备中,而OpenAI并未做出任何正面回应。就在上周,谷歌已经对一些公司开放了多模态大模型Gemini的功能。两个巨头的多模态对决一触即发。
Nvida 科学家Jim Fan一针见血