更多AI干货:
大半夜的,OpenAI 的垃圾直播没任何看头,就发了个个性化的 AI 搜索。
但是,Google 没有预告、没有营销,默默的在 X 上发了两个大货。
当今最先进的 AI 视频模型 Veo 2,还有 AI 绘图模型 Imagen 3 改进版。
我们一群人,一边看效果,一边不断的惊呼卧槽。
我几乎从来不使用炸裂这个词,但是 AI 视频 Veo 2 的效果,真的让我有点想欢呼,甚至,有点像 2 月 16 号那个宿命的一夜,看 Sora 的感觉。
一个一个来说。
不说废话,先看视频。
说实话,这些视频,我都不愿意转成 gif,而是直接传视频上来给大家看。
这个审美、这个稳定性、这个真实质感、这个物理规律,当得起当今最强的称号。
真的,物理之神,特别是那个切番茄的视频,我一度真的怀疑是实拍的,太恐怖了。
而且,我看了一圈 Prompt,发现对拍摄风格、角度、运动等等的语义理解,都极佳。
比如这个汽车飞驰的视频,Prompt 里写的就是:
“低角度跟踪镜头,18mm 镜头。汽车漂移,留下光线和轮胎烟雾的轨迹,创造出视觉上引人注目且抽象的构图。相机低位跟踪,捕捉到流线型的橄榄绿色肌肉车驶向一个拐角。当汽车进行戏剧性的漂移时,镜头变得更加风格化。旋转的轮子和翻滚的轮胎烟雾,在周围城市灯光和镜头光晕的照射下,形成了在黑色沥青上划出的光线和色彩的条纹。城市景观--黄色出租车、霓虹灯和行人--变成了模糊的抽象背景。体积光照增加了深度和氛围,将场景转变为一个视觉上引人注目的运动、光线和城市能量的构图。”
有那么多的开车的 AI 视频镜头,而这,是我看过的最好的,没有之一。
还有,能直接对一个运动的物体,用 Prompt 来对其进行超级稳定的多轮材质变化。
稳定到起飞,这也是我第一次,能在 AI 视频里,见到如此稳定的特效变换的。
Google 自己也做了一个人类观察者的评测,通过 Meta 发布的基准数据集 MovieGenBench,做了 1003 个数据,来让大家盲测,哪个效果更好。
最后得到的结果,是这样的。
这块我稍微解释一下,有两个表,分为 Overall Preference(整体偏好度)和 Prompt Adherence(提示匹配度)。
每个图表的横轴表示不同的被对比模型,分别是 Meta、可灵 v1.5、Minimax、Sora Turbo。
Google 做的是把 Veo 2 跟这些模型做点对点的盲测。真的,国产模型居然也能作为对比基准了,突然有一股热血涌上心头。。。
而每个柱由三个部分组成,颜色代表结果分类:
绿色部分(Veo):评测者在对比中更偏好 Veo 输出的比例。
白色部分(Ties):评测者认为两者不分上下,即没有明显偏好的比例。
粉色部分(Other preferred):评测者更偏好另一模型(非 Veo)的比例。
以 Google DeepMind 浓眉大眼的一贯作风,基本不会造假,所以能看到,Google 的 Veo 2 在大多数情况下,取得了最优结果。
而在 Google 的评测里,除了 Veo 2 之外,另外四个模型里,最强的是可灵 v1.5,这个结果也是挺有趣的。
而且,有一点是需要注意的,Veo 2,是可以直出 4K 视频的。
他们在 Youtube 上传的视频,也是原生 4K,这个就非常的恐怖。
他们自己也说,目前最大的难点和限制,还是在运动上。
原话是:“创建真实、动态或复杂的视频,并在复杂场景或具有复杂运动的场景中保持完全一致性仍然是一项挑战。”
来看一下他们的 Badcase。
说是 Badcase,但是我感觉他们发出来的时候估计脸上也都带着笑,那意思就是:
给你们看看,爷的运动有多强。
有瑕疵,但是对比 Sora 这种,这运动质量,已经吊炸天了。
Veo 2 网址在此: https://labs.google/fx/tools/video-fx
需要排队,直接填一份表单就好。
按照 Google 的性格,排队肯定要不了多久,不是 OpenAI 那种纯粹耍猴的,绝不可能一等就是半年,应该很快就能用上。
OpenAI 的这波 12 天直播,感觉彻底把路人缘败光了,之前 Google 一直被 OpenAI 恶心的头疼,而这次,直接彻底反击。
你喜欢狙我是吧,来来来,这次 Gemini 2、Veo 2、Imagen 3 我一个一个放,你不是喜欢抢热度吗?来啊,这次来抢啊,看谁抢谁啊小兔崽子。
老虎不发威,你还当我 Google 是病猫了?
除了 Veo 2 之外,Google 这波还直接发了他们改进版的 AI 绘图 Imagen 3 模型,其实严格来说,是 Imagen 3-002 模型,Imagen 3 的第二代。
第一代 Imagen 3 是 2024 年 5 月 14 日,在谷歌的 I/O 开发者大会上发的。
半年过去,Google 对 Imagen 3 进行了一次大幅的进化,推出了改进版的第二代,他们自己的评测上,直接屠榜。
网址在此: https://labs.google/fx/zh/tools/image-fx
目前无需排队,可以直接玩,而且,免费。
直接在输入框里写 Prompt,就可以开始玩。
他们这个 Prompt 的设计,也很有意思,你可以输入各种奇奇怪怪的一大串 Prompt,他会自动给你拆解分词,有点像老罗当年那个胶囊大爆炸的感觉,把一些词分出来后,给你变成下拉框,自动联想几个其他的选项。
比如我的 prompt 是:
一个穿着巴斯光年服装的小黄人,身穿带翅膀的太空游侠套装,站在一个五彩缤纷的玩具店里,指着天空,仿佛准备起飞,背景是满满的玩具架,生动而富有活力的风格,中景。
一个非常简单的 Prompt,我们翻译成英文后,扔到 Imagen 3 里。
你会发现它在运行之后,会给你选中一些词变成下拉。
比如它把 wings 单独拎了出来,你点下拉后。
可以自动替换成喷气背包、火箭助推器、滑板车等等,非常有意思。
我们按照它的联想,把背饰换成喷气背包、背景换成电子游戏机房、姿势改成挥手告别,再跑一张看看。
这个交互,真的很通人性。我太喜欢了。
再放一些我跑的图。
整体看下来,有一种感觉就是,下限贼低,很吃 Prompt,要是 Prompt 写不好,那其实也会出不少很丑的图。
但是语义理解真的挺不错的,上限目前没太测出来,可能还不错。
但是不太适合新手玩。
OpenAI 这段时间的直播,彻底把人缘败干净了。
看了一圈,几乎都在骂。
不管是国内,还是国外。
再遥想今年 2 月 16 号,Google 的 Gemini1.5 Pro 被 OpenAI 的 Sora 淹的彻底没了声量,而现在,整个局势,好像反了过来。
甚至,很多人都没发现,之前 Sora 的大功臣,都已经跳槽到 Google DeepMind 了。。。
营销这事,真的是一把双刃剑。
现在这 OpenAI 的局面,真的都是自己造的。
万物皆轮回。
不要把自己作没了。
欢迎关注作者的微信公众号:数字生命卡兹克
复制本文链接 文章为作者独立观点不代表优设网立场,未经允许不得转载。
发评论!每天赢奖品
点击 登录 后,在评论区留言,系统会随机派送奖品
2012年成立至今,是国内备受欢迎的设计师平台,提供奖品赞助 联系我们
LoRA模型训练
已累计诞生 652 位幸运星
发表评论 已发布5条
↓ 下方为您推荐了一些精彩有趣的文章热评 ↓