OpenAI 推出文本转视频模型,结果令人惊讶。你自己看看
好莱坞电影制片人,你可能想留意索拉。
Sora 生成的视频的静止帧。 OpenAI 的提示是:“相机正对着意大利布拉诺岛色彩缤纷的建筑。一只可爱的斑点狗透过一栋建筑底层的窗户往外看。很多人在建筑前的运河街道上散步和骑自行车。”
Open AI 已经分别通过 DALL-E 3 和 ChatGPT 在图像和文本生成方面拥有市场领先的 AI 模型。现在,该公司也以全新的模式进军文本到视频生成领域。
周四,OpenAI 推出了 Sora,它的文本转视频模型可以生成长达一分钟的视频,其质量和细节令人印象深刻,如下面的演示视频所示:
隆重推出 Sora,我们的文本转视频模型。
Sora 可以创建长达 60 秒的视频,其中包含高度详细的场景、复杂的摄像机运动以及充满活力的情感的多个角色。 https://t.co/7j2JN27M3W
提示:“美丽,白雪皑皑…… pic.twitter.com/ruTEWn87vf
据 OpenAI 称,Sora 可以处理复杂的场景,包括多个角色、特定类型的运动和大量细节,因为该模型对语言、提示以及主题如何在世界上存在的深刻理解。
通过观看不同的演示视频,您可以看到 OpenAI 成功解决了视频生成领域的两大问题:连续性和寿命:
提示:“一位时尚女性走在充满温暖霓虹灯和动画城市标牌的东京街道上。她穿着黑色皮夹克、红色长裙和黑色靴子,拎着黑色钱包。她戴着太阳镜,涂着红色口红。她走路自信而随意。… pic.twitter.com/cjIdgYFaWq
人工智能生成的视频通常断断续续且扭曲,让观众清楚地看到每一帧的结束和开始位置。例如,Runaway AI 在三月份发布了其最先进的文本转视频模型 Gen-2。如下所示,这些剪辑与目前 OpenAI 模型的剪辑不太一样:
只用文字生成视频。如果您能说出来,现在您就可以看到它。
文本转视频简介。使用 Gen-2。
了解更多信息,请访问 https://t.co/PsJh664G0Q pic.twitter.com/6qEgcZ9QV4
另一方面,OpenAI 的模型可以生成流畅的视频,使每个生成的剪辑看起来就像是从好莱坞制作的电影中提取的。
OpenAI 表示,Sora 是一种扩散模型,能够通过使用类似于 GPT 模型的变压器架构以及 DALL-E 和 GPT 模型过去的研究来产生高质量的输出。除了从文本生成视频之外,Sora 还可以从静止图像生成视频或填充视频中缺失的帧:
提示:“电影预告片讲述了30岁太空人戴着红色羊毛针织摩托车头盔的冒险经历,蓝天、盐漠,电影风格,35毫米胶片拍摄,色彩鲜艳。” pic.twitter.com/0JzpwPUGPB
尽管展示了其所有进步,OpenAI 也解决了该模型的弱点,声称它有时会难以“模拟复杂场景的物理原理,并且可能无法理解因果关系的具体实例”。该模型还可能混淆提示的空间细节。
该模型首先可供红队成员评估模型的风险,并可供特定数量的创意人员使用,例如视觉艺术家、设计师和电影制作人,以收集有关如何改进模型以满足他们的需求的反馈。
我们似乎正在进入一个新时代,公司将把重点转向研究、开发和推出功能强大的人工智能文本到视频生成器。就在两周前,Google Research 发表了一篇关于 Lumiere 的研究论文,这是一种文本到视频的扩散模型,也可以创建高度逼真的视频。