网站搜索

OpenAI 推出文本转视频模型,结果令人惊讶。你自己看看


好莱坞电影制片人,你可能想留意索拉。

Sora 生成的视频的静止帧。 OpenAI 的提示是:“相机正对着意大利布拉诺岛色彩缤纷的建筑。一只可爱的斑点狗透过一栋建筑底层的窗户往外看。很多人在建筑前的运河街道上散步和骑自行车。”

Open AI 已经分别通过 DALL-E 3 和 ChatGPT 在图像和文本生成方面拥有市场领先的 AI 模型。现在,该公司也以全新的模式进军文本到视频生成领域。 

周四,OpenAI 推出了 Sora,它的文本转视频模型可以生成长达一分钟的视频,其质量和细节令人印象深刻,如下面的演示视频所示:

据 OpenAI 称,Sora 可以处理复杂的场景,包括多个角色、特定类型的运动和大量细节,因为该模型对语言、提示以及主题如何在世界上存在的深刻理解。 

通过观看不同的演示视频,您可以看到 OpenAI 成功解决了视频生成领域的两大问题:连续性和寿命:

人工智能生成的视频通常断断续续且扭曲,让观众清楚地看到每一帧的结束和开始位置。例如,Runaway AI 在三月份发布了其最先进的文本转视频模型 Gen-2。如下所示,这些剪辑与目前 OpenAI 模型的剪辑不太一样:

另一方面,OpenAI 的模型可以生成流畅的视频,使每个生成的剪辑看起来就像是从好莱坞制作的电影中提取的。 

OpenAI 表示,Sora 是一种扩散模型,能够通过使用类似于 GPT 模型的变压器架构以及 DALL-E 和 GPT 模型过去的研究来产生高质量的输出。除了从文本生成视频之外,Sora 还可以从静止图像生成视频或填充视频中缺失的帧:

尽管展示了其所有进步,OpenAI 也解决了该模型的弱点,声称它有时会难以“模拟复杂场景的物理原理,并且可能无法理解因果关系的具体实例”。该模型还可能混淆提示的空间细节。

该模型首先可供红队成员评估模型的风险,并可供特定数量的创意人员使用,例如视觉艺术家、设计师和电影制作人,以收集有关如何改进模型以满足他们的需求的反馈。 

我们似乎正在进入一个新时代,公司将把重点转向研究、开发和推出功能强大的人工智能文本到视频生成器。就在两周前,Google Research 发表了一篇关于 Lumiere 的研究论文,这是一种文本到视频的扩散模型,也可以创建高度逼真的视频。