Photoshop vs. Midjourney vs. DALL-E 3:只有一款 AI 图像生成器通过了我的 5 项测试
Photoshop 的 AI 如何对抗 DALL-E 和 Midjourney?我在涉及巨型机器人和未来场景的创造性冲突中测试他们的技能。
Photoshop AI提示:蒸汽朋克世界中的笔记本电脑(蒸汽朋克效果)
Adobe 本周发布的 AI 公告相当重要,尤其是 Illustrator 中基于 AI 的生成矢量功能。 Photoshop 进行了一系列小改进,但没有像今年年初宣布的生成填充功能那样改变游戏规则。
也就是说,Adobe 刚刚宣布 Photoshop 现在可以在给定空白画布的情况下生成图像,将其与 Midjourney 和 DALL-E 3 等文本到图像生成器归为同一类别。 为此,我想知道 Photoshop 的文本到图像生成器是如何实现的? -图像特征与其他特征相比,尤其是在创造力方面。
这就是我在本文中要做的事情。我使用 GPT-4o 在 ChatGPT 中向 Photoshop、Midjourney 和 DALL-E 提供相同的提示。我没有添加每个工具提供的任何样式选项,除了在一个测试中我在提示正文中要求“柴油朋克风格”的情况除外。
哪种工具能创作出更好的艺术作品?你必须对此做出判断。让我们开始吧。要查看更大的图像,请单击右上角的小方形图标。
测试 1:天空母舰
我想到的第一个图像是漫威漫画和电影中的天空母舰。这是一艘不可能由涡轮风扇发动机支撑在高空的航空母舰。物理原理值得怀疑,但酷的因素却偏离了轨道。
这是提示:
在天空中飞行的航空母舰,由圆形风扇罩中的四个向上的涡轮螺旋桨支撑,甲板上载有一个战斗机中队
对于每一个测试,我都会向您展示我认为来自所有三个人工智能的最佳图像,以便您可以对它们进行比较。
这是我们得到的:
如您所见,Photoshop 错过了良机。字面上地。它的知识库可能不明白什么是航空母舰。不过,如果你仔细观察,这些炸弹看起来确实有小螺旋桨。
旅程中产生了一艘看起来很好的直升机,但没有包括任何涡轮风扇发动机。 DALL-E 做到了,但即使我指定了“朝上”,它显然不知道如何处理它们,所以它只是将它们散布在整个图像中。
Midjourney 总是创建四张图像,因此对于每次测试,我都会选择我认为最好的一张并将其用于比较。
我决定回到 Photoshop 并打开它的造型选项之一,蒸汽朋克。正如您所看到的,Photoshop 生成了更有趣的图像。它不完全是一艘航空母舰,但它确实有一个指挥塔。如果你往下看,那个区域可能就是存放喷气式飞机的地方。我不确定,但这绝对是一个更有趣的图像。
文本转图像成功评级:
- 理解提示的整体精神:Midjourney 和 DALL-E
- 包括指定的所有详细信息: DALL-E
测试2:巨型柴油朋克机器人
维基百科将“柴油朋克”定义为“类似于蒸汽朋克或赛博朋克的复古未来主义科幻小说子流派,它将两次世界大战期间到 20 世纪 50 年代的柴油技术美学与复古未来主义技术和后现代情感结合在一起。”
如果说蒸汽朋克是关于拥有蒸汽机和齿轮的维多利亚时代,那么柴油朋克时代则是 20 世纪 40 年代和 1950 年代,当时拥有笨重的柴油技术。
无论如何,我给人工智能提供了这样的提示:
一个巨大的机器人作为一座光荣城市的保护者,市民们熙熙攘攘地上下班,柴油朋克风格的作品
公平地说,这三个人工智能工具都做得非常出色:
Photoshop 清楚地理解了这项任务。中途的形象与我发出提示时脑海中的形象最接近,但机器人看起来不像守护者。它看起来也不像是一个威胁,因为人们只是在闲逛。
DALL-E版本,机器人在城市前面,更符合守护者的理念。有一个问题是它是否因为蒸汽机而将蒸汽朋克与柴油朋克混淆了。蒸汽机普遍在 20 世纪 30 年代停止使用,但直到 1960 年它们仍在某些线路上运行,这意味着它们可以在柴油朋克时代共存。人们的打扮是柴油朋克而不是蒸汽朋克,前面的公共汽车显然是柴油朋克而不是蒸汽朋克。
文本转图像成功评级:
- 理解提示的整体精神:全部三个,但可能 DALL-E 多一点
- 包括指定的所有详细信息:所有三个
测试 3:亚瑟王宫廷中的孩子
当您撰写这样的文章时,会发生的事情之一是您正在寻找测试用例的想法。我想看看人工智能在并置的时间段内的表现会很有趣,因为它们在柴油朋克时代代表公民方面做得相当好。
我碰巧是架空历史和时间旅行的粉丝,所以当我想到这一点时,我的脑海里浮现出一部 20 世纪 90 年代中期的小电影,影片将一名少年棒球运动员带入了中世纪(那个时代,而不是餐馆)。那部电影是《亚瑟王宫廷里的孩子》。无论如何,这不是一部经典,但它是一部有趣的电影。因此,这给了我们这样的提示:
一个十几岁的男孩穿着现代洋基队风格的棒球服,戴着帽子和手套,站在中世纪法庭熙熙攘攘的中心,周围是穿着盔甲的公民和骑士
以下是人工智能产生的结果:
Photoshop 图像是最真实的。它很可能是在电影片场拍摄的一个真实的孩子。不幸的是(但可能是预料之中的,因为 Adobe 的许可媒体库),这个孩子没有穿着洋基队队服。也就是说,人工智能在给孩子设计的服装中加入了棒球风格的提示,做得非常出色。
《中途》创造了最有凝聚力的形象,尽管这个孩子看起来像突然来到亚瑟王时代的孩子一样不高兴。其他图像显示,孩子们看起来更糟,就好像马丁·帕德威 (Martin Padway) 出现在 L. 斯普拉格·德坎普 (L. Sprague de Camp) 的《以免黑暗降临》系列图书中时,他们就一直生活在中世纪欧洲。
DALL-E 是最不令人印象深刻的。它确实符合规格,但该图像有一种非常恐怖的山谷感觉,而其他两张图像则没有。
文本转图像成功评级:
- 理解提示的整体精神:全部三个
- 包括指定的所有详细信息:中途和 DALL-E
现在我们已经不再受到内心马克·吐温的启发,让我们回到……未来。
测试4:回到未来
我在为此构建测试时遇到的另一个问题是需要使用我确信每个人都能理解的参考文献。当代有很多伟大的电影,即使是科幻小说,但我不确定我们都有相同的参照系。
但通过人工智能引导这些古老的经典作品,我可以非常确定我们的大多数读者都知道要寻找什么以及期待什么。 当然,这让我们回到了未来。这次,我想给AI一个电影标题,看看它用它做了什么。这是提示:
创建代表电影“回到未来”的图像,包括 20 世纪 50 年代的主题、德罗宁时光机汽车和滑板男孩
这是我们得到的:
Photoshop...我的意思是,你能说什么?从汽车挡风玻璃中跳出的孩子有点令人不安。同样,Adobe Firefly 知识库的许可限制性质阻碍了图像生成,但 AI 确实尝试包含一些 20 世纪 50 年代的感觉。这是另外两张 Photoshop 图像:
《中途旅程》的所有四张图片都表现出色,尽管第一张图片错过了汽车:
DALL-E 进行了战斗。尽管在之前的测试中,DALL-E 非常乐意使用受版权保护的内容,但这次它只是拒绝了。当我输入上面的提示时,ChatGPT 中的 DALL-E 响应如下:
由于内容政策限制,我无法根据要求生成图像。如果您有其他提示或者您想要进行任何调整,请告诉我。
我问ChatGPT:
重写提示,使其在不违反政策限制的情况下尽可能多地反映意图
ChatGPT 没有给我返回新的提示,但它确实给了我上面显示的图像,这非常接近该项目的意图。
文本转图像成功评级:
- 理解提示的整体精神:中途,DALL-E 获得荣誉奖
- 包括指定的所有详细信息:中途,DALL-E 再次获得荣誉奖
测试 5:ZDNET 的座右铭
ZDNET 的座右铭是“明天属于那些拥抱今天的人”。您可以在每个页面的顶部看到它:
我想知道人工智能会用它做什么,所以我把这句话喂给了他们每个人。这是返回的结果:
所以,Photoshop 已经成为了流行趋势,你知道吗?对此有什么可说的呢?另一方面,《中途》创造了一个非常有趣和漂亮的形象。它确实具有 ZDNET 座右铭的感觉,尽管图像本身很难描述。而且,尽管有一个非常小的字母问题,DALL-E 仍然很好地代表了未来及其可能性。
文本转图像成功评级:
- 理解提示的整体精神:Midjourney 和 DALL-E
- 包括指定的所有细节: Midjourney 和 DALL-E 都制作了一幅带有座右铭所传达的情感的图像
- 去了一个没人理解的黑暗地方: Photoshop
哪个人工智能获胜?
不幸的是,这不是 Photoshop。 Photoshop 在五项测试中的两项大部分都取得了成功,但其他测试却几乎失败了。 Midjourney 是最成功的,但 DALL-E 非常接近。
Photoshop 的特点是,虽然 Photoshop 的文本到图像功能并不是那么出色,但 Photoshop 拥有所有 AI 中最好的生成填充功能。我仍然很可能在 Midjourney(有时是 DALL-E)中创建图像,然后将它们带入 Photoshop 中进行生成填充修饰。
你怎么认为?您使用以下哪些工具?您认为哪个人工智能在我们的测试中表现最好?请在下面的评论中告诉我们。
您可以在社交媒体上关注我的日常项目更新。请务必订阅我的每周更新时事通讯,并在 Twitter/X 上关注我:@DavidGewirtz、Facebook 上:Facebook.com/DavidGewirtz、Instagram 上:Instagram.com/DavidGewirtz 和 YouTube 上:YouTube.com/DavidGewirtzTV。