谷歌推出新系统Imagen，人工智能对语言有了更深刻理解

AI2年前 (2023)发布 aixure

63 0 0

导读：谷歌本周公布了OpenAI自吹自打的DALLE-2文本-图像生成器的新挑战者，并对其竞争对手的努力进行了抨击。这两种模式都将文本提示转换为图片。但谷歌的研究人员称，他们的系统提供了前所未有的照片真实感和深度语言理解。在样本质量和图像-文本对齐方面，人类…

谷歌本周公布了OpenAI自吹自打的DALLE-2文本-图像生成器的新挑战者，并对其竞争对手的努力进行了抨击。

这两种模式都将文本提示转换为图片。但谷歌的研究人员称，他们的系统提供了“前所未有的照片真实感和深度语言理解”。

在样本质量和图像-文本对齐方面，人类评分者更喜欢Imagen而不是DALLE-2

名为Imagen的系统使用一个大型的预先训练的语言模型作为文本编码器。一连串的扩散模型将用户的文字转化为图片。在测试中，谷歌团队表示，Imagen“明显优于”DALL-E 2。

Imagen vs DALL-E 2在DrawBench上的对比:a)图像-文本对齐，b)图像逼真度。

Imagen的开发人员甚至发明了一种新方法来衡量他们的作品是否至高无上。这个名为DrawBench的基准测试比较了人类对不同文本到图像生成器输出的判断。

不出所料，谷歌的指标给谷歌的系统打了高分。研究人员在他们的研究论文中说:“通过DrawBench，广泛的人类评估表明，Imagen的性能明显优于最近的其他方法。”

DALL-E 2可能很难正确地为对象分配颜色特别是对于包含多个对象的提示。

图片和参数确实令人印象深刻，但谷歌没有提供机会仔细审查结果。你可以在Imagen网站上尝试一些交互式的演示，但这些只允许你使用一小部分短语来组成一个有限的句子。

在模型和代码公开发布之前，愤世嫉俗者会怀疑谷歌是在挑拣结果。

在文本类别的DrawBench提示上，对比Imagen和DALL-E 2的定性。Imagen在带引号文本的提示符方面明显优于DALL-E 2。

谷歌对保持模型私有的解释与OpenAI给出的解释相呼应:系统太危险了，不能发布。

研究人员警告说，生成式方法会传播错误信息，引发骚扰，并加剧边缘化。

研究人员说:“我们的初步评估还表明，Imagen编码了一些社会偏见和刻板印象，包括对生成浅肤色人的整体偏见，以及倾向于将不同职业的形象与西方性别刻板印象相一致。”

Imagen在位置、文本和描述方面的表现明显优于DALL-E 2

该团队得出结论，Imagen“目前还不适合公众使用”但它确实为未来的发布提供了希望。

我谨慎地等待他们的更新。作为每天为文章创作图像的人，人工智能实验室竞相提供更好结果的前景很有吸引力。

另一方面，我不希望我们的机器人霸主用算法取代艺术家。

本文由升哲科技编译，转载请注明。

文章版权归作者所有，未经允许请勿转载。

aixure

aixure

aixure

aixure

aixure

aixure

暂无评论

暂无评论...