全流程拆解！手把手带你制作AI视频短片

LTX Studio 最新测评! 颠覆传统的一站式 AI 视频创作神器

大家好，这里是和你们一起探索 AI 的花生~ AI 视频生成工具正在被越来越多地应用到实际创作中，大家应该看过不少用 AI 生成的 “电影预告片”，比如 CCTV6 电影频道发起的 “AI 影像人才优选计划” 中的短片《玉覆荆楚》，效果就非常惊艳。

阅读文章 >

2024 年是多模态人工智能 AI 技术爆发飞跃的一年，尤其是 AI 视频迎来了快速发展的阶段，以及随着今年年初 Open AI 突然发布的首个文生视频大模型——Sora，AI视频在极短时间内受到了公众的广泛关注，AI视频为广大创作者和相关从业人员，在创意表达和内容创作领域上开辟了新的可能性，也预示着AI视频未来将持续融入更先进的技术，推动该领域发展至新高度。

尽管目前 AI 视频技术仍处于成长阶段，但我们已经关注到，国内外众多品牌和媒体已经开始积极探索 AI 视频的商业潜力，并且成功落地了一些商业项目。我们预计 AI 视频将为团队增添新的商业机会，所以自 23 年下半年起，我们便开始着手研究 AI 视频技术。随着今年年初 Sora 的推出，我们更加确信 AI 视频技术是未来发展的趋势。因此，我们认为有必要提前掌握 AI 视频的工作流程，来更好的迎接 AI 视频的到来。

为此，我们在 4 月初正式启动了 AI 视频制作计划，旨在全面梳理和实践 AI 视频的制作流程，积累相关经验，利用现有 AI 技术先储备 AI 视频的相关经验，并制作出一部原创 AI 视频。本次视频是以夏天即将到来的"2024 年法国巴黎奥运会"为创作主题，我们在团队内部组建了两个视频小组，要求每个小组各制作一支 1 分钟左右的 AI 视频短片。先给大家看下两部视频的最终成片效果，随后会给大家介绍一下整个 AI 视频的制作流程，与大家分享我们的经验和心得。

当视频在手机上无法加载，可前往PC查看。

原创视频《巴黎奥运新视界》

当视频在手机上无法加载，可前往PC查看。

原创视频《圆梦奥运》

一、重点步骤详解

为了提升制作效率，我们对 AI 视频短片的创作流程进行了细致的梳理。经过我们内部反复测试以及结合 AI 现有的技术能力。我们认为，利用图片生视频的创作流程是目前可控性最高、效率最高，也是最切实可行的方法。因此，我们走通 AI 视频整个流程可以划分为六个关键环节：撰写剧本、分镜脚本、AI 生成图片、图片生成视频、后期剪辑制作以及音效处理，这也是一个非常小型的影视工作的制作流程。

全流程拆解！手把手带你制作AI视频短片

1. 写脚本

首先就是围绕法国巴黎奥运会为主题写一个剧本大纲，这是我们第一次尝试自己编写剧本，尽管缺乏经验，但这个过程充满了乐趣和挑战。我们的第一支视频《巴黎奥运新视界》以呈现浪漫巴黎和奥运选手的激烈角逐，共同描绘巴黎的城市魅力与奥运的热烈氛围。第二支视频《圆梦奥运》则以国宝大熊猫为主角，同世界各地的动物们一起参赛，在奥运会上各展所长迎接盛事。

剧本是整个视频制作环节的灵魂，确立了剧本，我们就能够围绕其核心思想，有序推进后续的创作工作。如果大家对于写脚本没有太大的概念，也可以通过观看优秀的电影或短片，吸收灵感，积累经验，从而提升自己的创作能力。

全流程拆解！手把手带你制作AI视频短片

2. 分镜脚本

剧本大纲确立后，接下来就是围绕剧本大纲做视频的分镜脚本制作，这一阶段要求我们对脚本进行深入的解析和细化，明确每一个镜头的具体画面内容、拍摄视角以及镜头运用技巧等。为了提升专业性，我们建议大家可以储备一定的视频拍摄术语、画面与镜头感、分镜等相关技能。

分镜脚本的核心在于用文字精确描述视频中的关键视觉元素，包括人物、动作、场景等。在拍摄视角和镜头运用技巧上，我们可以通过记忆口诀“远全中近特，推拉摇移跟”来把握景别和镜头运动方式。将抽象的文字描述转化为具体的视觉图像，从而更准确地掌控画面效果。在完成分镜脚本初稿后，建议大家多做几次审阅，确保脚本的逻辑连贯性，以及画面转场的流畅性。

全流程拆解！手把手带你制作AI视频短片

3. AI 生图

依据分镜脚本的内容，接下来我们就可以利用 AI 生成所需要的图片。在图片生成工具选择上，我们依然还是使用 Midjourney（以下简称 MJ）。在开始前，我们首先需要明确视频的视觉风格、色调、画面构图、光影效果、景别以及画幅比例等关键要素，确认这些后，我们就可以根据分镜脚本中的描述，提炼出关键词，通过 AI 生成想要的图片。

全流程拆解！手把手带你制作AI视频短片

当然 AI 生成的图像并不总是完全符合预期，我们在生成图片过程中也出现了不少问题，并且有些问题是 AI 多次生成都难以避免的。那么针对这一点，我们可以通过 PS 或者借助其他修图软件来灵活处理，以下是我们针对 AI 图片生成中常见问题的三种处理方法：

① 做加法

当 AI 无法精准地在图片添加所需的物体或元素时，我们可以利用 PS 的后期处理能力，手动添加这些缺失的元素。比如，在生成熊猫坐在看台上看比赛的图片中，AI 生成不出彩屑元素，但为了增强比赛的热烈氛围，我们可以后期手动添加一些彩屑效果。

② 做减法

当 AI 生成的图片中出现多余物体或元素时，我们可以利用 PS 的后期处理能力，手动去除不必要的元素。比如，这张小狗打乒乓球的图片为例，可以看到图片上有多个乒乓球，我们选择想保留的一个，去除掉多余球即可。

③ 做乘法

当 AI 无法精准地生成特定物体或元素时，我们可以利用后期替换上对应元素。比如，两只小猫踢足球的图片，可以发现 AI 生成的足球和常规足球不相符，我们就找了足球照片进行替换。

以及下图我们想生成的是中国乒乓球运动员，但中国国旗生成不出来，所以最终我们还是采用国旗图片来替代 AI 生成的图片，优先确保国旗以正确无误的形态呈现，我们在追求创意与技术融合的同时，也要保证对标准和细节的尊重。

通过以上这些方法，我们就能避免在 AI 生图过程中，因为某张图片有局部问题，导致反复生成，浪费太多时间，我们希望能用最少的时间，最小的成本，达到我们预期想要的效果。

4. 图生视频

接下来就是本次的核心环节：将图片转换成为视频。文生视频时，AI 对文本的理解可能与用户预期不符，导致生成的视频内容偏离我们预期，在稳定性和质量一致性方面存在较大挑战。而图生视频则在视觉一致性和生成质量稳定性方面表现较好，技术也比较稳定。我们之所以采用先 AI 生成图片，再用图片生成视频的策略，核心目的是为了提高工作效率，并尽可能降低制作过程中的各种不确定性因素。具体操作上，先利用 MJ 生成静态画面，确认这些画面达到理想效果后，再通过图片转视频的 AI 技术完成视频的生成；所以想直接寻求一步到位的解决方案目前是不现实的。所以通过目前这种分步骤的方法来逐步接近想要的效果，确保画面的可控性及高质量的输出。

在图片生视频的 AI 工具选择上，我们经过细致考量，最终选用了 3 款工具：Runway、Dreamina 和 Pixverse，这 3 款工具各有特色，相比较而言 Runway 无论是在画面稳定性、细节表现力、运镜等方面都表现得比较好，更能满足细节镜头、特定镜头运动的精准控制需求。Dreamina 擅长生成大幅度的运动效果，以及还可以通过上传首尾帧图片，让 AI 智能补全中间的运动轨迹。Pixverse 则支持免费生成 4K 视频，尤其适合用在大全景、空镜等不需要精准控制的场景上，可以达到自然微动的动态效果。具体实际应用中，大家可以根据自己生成的效果灵活选用 AI 工具。在图片生视频的生成方式上，我们主要采用了两种方式：

① 通过上传一张图片直接生成视频

如下面的示例所示，通过上传一张图片就能直接生成视频，这种方法因其操作简便、效率高效，是我们最常采用的生成视频的方式。这里主要使用的工具是 Runway 和 Pixverse。

② 通过上传首帧图片和尾帧图片生成视频

通过控制首尾帧图片，让 AI 工具来智能补全中间的运动轨迹，从而生成一段流畅的视频。这里使用的 AI 视频工具是 Dreamina，比如下图当我们希望展示巴黎铁塔从白天到傍晚的转变时，就可以利用 Dreamina 来生成想要的视频效果，实现从白天到黄昏的自然过渡。

5. 剪辑制作

在视频生成阶段完成后，我们就进入了剪辑制作环节，把生成的视频素材按照分镜脚本内容通过 AE 软件进行剪辑制作，当然，想更轻量化完成剪辑环节也可以使用剪映，这个环节也是整个制作流程中人工参与度最多的部分，尽管每个视频的原始时长大约在 3 到 4 秒之间，但实际能够完全使用的片段仅占到总视频的 24%。由此可见，AI 生成的视频并非整段都能直接使用，有时由于生成中的某些问题，我们只能从中提取 1 到 2 秒的可用内容，如果单个视频的时长不足以满足剪辑需求，我们可以通过生成具有相似画面或延长画面的额外视频来补充，不过大多数情况下，现有的视频素材能够应对剪辑工作。

6. 音效

由于时间紧迫，本次视频我们使用了现成的音乐素材，没能实现 AI 生成音乐素材创作。尽管如此，我们依然推荐在时间充裕的情况下大家探索下 AI 音乐素材生成。这里也给大家推荐一款好用的 AI 生成音乐工具 Suno，它能够根据用户对音乐的具体描述，快速生成符合预期的音乐作品。这不仅能够为我们的视频增添独特的音乐元素，也能进一步提升视频作品的艺术性和观赏性。

① 制作成本

目前，尽管 AI 技术取得了显著进步，但在视频制作领域 AI 的独立运作能力仍有限，还需要人工的大量参与和协作。这两个视频是我们团队利用工作的碎片时间制作完成的成果，从最初写脚本到剪辑制作六个环节到最终成片，每个视频平均花费了 60 多个小时。在创作过程中，我们通过 MJ 共生成了 7600 多张图片，并经过严格筛选，最终选用了 97 张图片，这些图片生成了 450 多个视频，再经过进一步的筛选，我们最终选用了 86 个视频用于最终的视频呈现。虽然整个制作过程比预期的要长，但考虑到这是我们的首次尝试，团队需要时间来磨合和适应。

全流程拆解！手把手带你制作AI视频短片

尽管 AI 视频在生成方面取得了显著进步，但在处理复杂动作和达到完美效果方面，仍有很大的提升空间，再加上当下 AI 生成的视频时长仅有 4 秒钟，AI 视频目前还无法完全满足我们的更多的诉求和期望，虽然这次的视频制作还未完全达到我们心目中的理想效果，还有很多优化空间。但我们仍然坚信，AI 视频无论是在技术突破上，还是应用拓展和其他技术的融合等方面在未来都会有很大的发展前景，在更先进的 AI 视频新技术到来之前，提前掌握 AI 视频的工作流程是十分有必要的。

作为我们团队制作的首个 AI 视频，通过这次实践，我们已经走通并掌握了整个 AI 视频的制作流程，并积累了宝贵的经验，提前储备了 AI 视频的制作能力，能为之后 AI 视频实践奠定基础。我们坚信，随着 AI 视频技术的不断进步和我们团队经验的持续积累，我们能够制作出更高质量的 AI 视频，满足更广泛的商业需求，推动团队业务的持续发展。