AI 视频新王者诞生！一文盘点 Sora 模型 14 项功能特点！

大家好，我是花生~

2 月 16 日 OpenAI 发布了一个新的 AI 视频生成模型 Sora，它可以根据文本生成 60s 的高质量视频，完全突破了之前 AI 文生视频存在的各种局限，所以一出现就引起广泛关注和热烈讨论，大家应该对它都有所了解。今天就根据网上已公布的视频，对 Sora 的功能特性进行一个盘点总结，其中包含与 Runway、Pika 等 AI 视频工具的生成效果对比，让大家对 Sora 的能力有一个更直观全面的了解。

降维式打击！像素级拆解文生视频大模型Sora

Openai 发布了它的文生视频大模型 Sora。

阅读文章 >

一、60s 超长视频

之前优设已经推荐过 AI 视频工具，比如 Runway、Pika、MoonVally、Domo AI、AnimateDiff、Stable Video 等，它们文生视频长度都在 3-7 秒之间（Aminatediff 和 Deforum 因形式不同，不列入此处的比较），而 Sora 直接将时长最高提升到 60s，是之前的 10 倍，这样的长度是放在之前大家可能觉得要好几年才能实现，但是 Sora 让其一夜之间成为现实。

视频来源：Twitter@ Gabor Cselle

二、超高的文生视频质量

接触过 AI 视频生成的小伙伴肯定清楚，文本生成的视频效果最难控制，很容易出现画面扭曲、元素丢失情况，或者视频根本看不出动态。所以不少 AI 视频工具都转向在图生视频或者视频转绘上发力，比如 Runway 的 Motion Brush 笔刷，通过在图像上涂抹指定区域添加动效；以及 Domo AI，可以将真实视频转为多种不同的风格，这些方式让 AI 视频更可控，因此质量更好。

而 Sora 的出现则完全颠覆了人们对文生视频的认知，不仅直接能通过文本生成各种风格的高清的视频，还支持多样化的视频时长、分辨率和画幅比，并且能始终保持画面主体位于视频中央，呈现出最佳构图。

Sora 根据一组提示词生成的三组不同画幅的视频

三、连贯一致的视频内容

Sora 生成的视频中，随时长增加人物及场景元素依旧能保持自己原有原有的状态，不会扭曲变形，所以视频前后连贯性非常好。即使元素被遮挡或者短暂离开画面，Sora 依旧能在后续准确呈现这一对象的相关特征。这就解决了之前大家一直很关心的视频中人物一致性问题，也许之后我们就无需后期拼接，而是仅凭文本就生成一个剧情完整的短视频了。

四、多视角稳定呈现

Sora 能针对一个场景或者一个主题进行多视角呈现，比如针对“下雪天的街道”主体，可以同时生成手部玩雪特写、街道元素特写、行人走动中景、街道全景等分镜。

下面是从 Sora 视频中截取一段，可以看到随着镜头旋转，新视角中无论是机器人还是背后环境的细节都能稳定呈现，如同 CG 建模一样精准。之前为大家介绍过 Stable zero 123，一种可以生成多视角图像的 AI 模型，但效果远比不上在视频中的呈现，也许 Sora 能为我们提供一种生成角色三视图的新方法。

五、自然流畅的动态

推特网友 @Poonam Soni 制作的了几组 Sora 与 Runway 的效果对比。无论是小狗打闹、云朵的飘动还是袋鼠跳舞，Sora 的动态都非常自然，就像我们在现实中看到的那样；相比之下 Runway 生成的动作总有一种 “慢放”的感觉，不够自然。

六、逼真的镜头运动

在 Runway、Pika 等工具中，如果想实现镜头运动，需要使用额外的 --motion 参数，然后从平移、旋转、缩放中等选项中选一种。而 Sora 中可以直接列理解文本提示词中有关视频的镜头运动，比如提示词中是 “镜头跟在一辆白色复古越野车后面”，在长达 20s 的视频内，无论道路如何弯曲，镜头真的能始终跟随这汽车，让其处于画面中央。Sora 也能在一个视频中使用多种镜头运动。

即使没有镜头提示，Sora 也能主动地添加镜头动作，比如下面的视频，花盛开到快超出屏幕时，镜头会自动上移时。以展现完整的主体；以及镜头有聚焦在老人面部时，带着一种手持拍摄的抖动，这是用 motion 设置也无法得到的效果，让人感觉这是真的视频而非“会动的图片”。
https://twitter.com/i/status/1758295719788822866

七、准确的提示词理解

对于“船在咖啡杯里”、"用白炽灯做壳的寄居蟹" 这样比较复杂的概念，Sora 能准确理解并呈现出正确的视频，Runway、Pika、Morph 等目前则无法做到。在 Sora 的研究报告中，官方提到他们会利用 GPT 将用户的简短提示转换成更长的详细说明，然后发送给视频模型，以得到更好的生成效果。

视频来源：twitter@ @Poonam Soni

八、图生视频

Sora 虽然自称是文生视频模型，但它也可以将图像转为动态视频，而且动态效果比其他 AI 视频都好，还不会出现转换后画质下降的情况。Sora 的图生视频功能并不是简单的为已有元素添加动态，还能生成新的内容（比如为云彩字添加了一个弹出的动效）。

视频来源：twitter@ Anu Aakash

九、用文本编辑视频

Sora 可以仅通过文本对视频进行编辑，对一个写画风视频加上 “rewrite the video in a pixel art style” 提示，可以将其变为像素飞哥，加上 ““make it go underwater”可以替换画面元素，而且新元素与整体融合自然然。之前图像进行局部重绘都是有些困难的事，Sora 这是直接做到了对视频内容的完美局部重绘，模型的能力真的令人惊叹。

十、生成完美循环动画

Sora 支持在一个视频的基础上生成向前或向后延伸生成新内容，并且做到无缝衔接。下面 2 个视频是由同一段视频向前扩展得来的，所以结尾相同；而如果对一个视频同时操作向前和向后延伸，就能好得到一个完美的循环动画。这项功能目前还没有其他能实现的 AI 工具，如果能落地对创意视频生成肯定非常有帮助。

十一、无缝衔接视频

Sora 可以在两个视频之间逐步插值，在主题和场景构图完全不同的视频之间创建无缝过渡，比如由真实的海岛变为一个 3D 卡通风格的微缩雪地村庄，或者让一只蜥蜴慢慢变成一只鸟。官方用的 “无缝过渡” 绝不是夸张，仔细看视频你会发现 sora 真的会自己找角度让视频转换更自然，这点在影视特效制作上应该也大有可为。