网站搜索

苹果新的人工智能模型根据用户的文字提示编辑照片


该公司还因 2023 年收购其他科技巨头中人工智能初创公司最多而成为新闻焦点。

Hugging Face 上的 MGIE 演示照片。 

苹果刚刚推出了一个开源人工智能模型,可以执行基于文本的图像编辑命令。该模型名为 MLLM 引导图像编辑 (MGIE),是与加州大学圣巴巴拉分校合作开发的。 

MGIE可以执行各种图像编辑任务,如裁剪、调整大小和旋转;以及亮度、色彩平衡和对比度的调整——所有这些都是按照用户的文本提示进行的。本周发表的一份会议论文概述了 MGIE 功能和性能的详细情况。 

该报告讨论了 MGIE 如何在不同指标上显着提高图像编辑性能并保持有竞争力的推理效率。该技术用于执行 Photoshop 风格的修改、照片优化和本地编辑。 

该论文解释说,MGIE 表现出了优于现有技术的优势,为未来的图像编辑工具提供了一个有希望的方向,这些工具将更易于使用、更直观。 MGIE 作为 Apple 的官方开发产品并未广泛向公众开放,但用户可以通过 GitHub 访问它进行技术探索或在 Hugging Face 上尝试其网络演示。 

Hugging Face 上另一个 MGIE 演示的屏幕截图。

MGIE 的开发可能是为了追赶微软、谷歌和 Meta 在过去两年所做的努力。尽管其他科技巨头已经发布了精致的人工智能聊天机器人,甚至一些图像生成器,但苹果在生成人工智能市场的缺席一直很有趣。 

该公司似乎正在努力迎头赶上:仅在 2023 年,苹果就收购了多达 32 家人工智能初创公司,远多于谷歌的 21 家收购、Meta 的 18 家和微软的 17 家。苹果对这些收购和生成式人工智能的进步保密,让我们无法理解只能推测该公司何时公开发布它们以及它们将包含在哪些设备和平台中。

据英国广播公司 (BBC) 报道,苹果公司以收购规模较小的公司来接管其技术和人才而闻名,苹果首席执行官蒂姆·库克 (Tim Cook) 在 2021 年表示,该公司每三到四个星期就会收购一家初创公司,但据报道,苹果公司在 2022 年放慢了收购步伐那一年只收购了两家公司。