前言
我相信这是一篇针对大朋友、小朋友都通俗易懂的视频剧本构思到视频落地的全流程拆解教程。基于大语言模型和绘图模型的前提,有了一次和小伙伴们探索文生图到图生视频的创作实践。
废话不多说,直接上保姆级干货教程!保证你能够轻松学会!
学之前,快来看看我们制作的视频短片吧~
1. 确定主题
针对于现有的 AI 生成能力,央视推出了多组 AI 视频短片,为此我们也决定生成一个符合时代主旋律的 AI 小视频。经过脑暴阶段,有了一带一路背景下丝绸之路这个角度的创作故事。创作方向也可以借助大语言模型生成主题方向的灵感,下面提供部分列举方向可做参考:
2. 工具探索
通过对 AI 工具的了解和视频的构成,我们发现当下有许多能够进行视频生成的工具,于是进行了部分视频生成工具的测试。最终选择了大语言模型 chatgpt、kimi 进行剧本分镜设定,文生图 midjourney 生成视觉画面,图生视频选择即梦 dreamina 制作动态画面,suno 音乐编曲,ondoku 主角台词配音,视频剪辑使用的是剪映。视频中的小部分的音效也在网上进行了无版权下载,当然剪映里也有大量的音效可以使用。
3. 风格与时长
时长确立:制作一个 1 分钟左右的 AI 生成画面,加上闭幕不超过 2 分钟。
风格确立:大致定义为中国风,当然即便风格定义成中国风也有不同的风格展示,我们采用同一提示词,进行了风格测试对比。
这里我们使用了 Fanbook 中的 niji6 模型以及 --sref 指令,最后加上每张图片的提示词,完成了整个视频风格保持一致性的确定。(当然 风格一致性......等等诸多详细教程,后续.....赶紧小关小注)尺寸选择 16:9。
4. 剧本分镜设定
根据丝绸之路的古风主题,风格和时长的确定。接下来就需要设定故事主线和镜头。
有了以上故事剧本及相关资料的基础,就可以进一步扩充每一个画面啦。我们可以参考分镜头的基本格式要求,按照场景、地点、镜号、画面描述、台词、音效等维度进行填充。这里提一个小建议,画面数量与台词长短密切相关,比如,主角一句话有 6 个字,按照 3~4 字/秒核算,需要有 2 秒的时长,而通常 1 个画面可以生成 2~3 秒的短视频,因此,6 个字的台词长度,使用一个画面便可以满足。换句话说,当台词越长,所需的画面量越多,生图的工作量也越大。所以我们要尽可能精简人物的对话,提炼重点。
当然,当你对某一句台词,没有足够的画面灵感,你还可以借助语言大模型来帮助你。比如,在这次的分镜头创作过程中,我们便与 Kimi 进入了深入的交流。你可以要求 Kimi 帮你写好画面描述(如下左图)。你还可以直接将台词抛给 Kimi,让他帮你写好画面描述,甚至加上对音效的需求(如下右图)。
大模型可以为你提供足够多的灵感,你可以多提问,多尝试。当然,最终选取哪个画面,如何平衡画面之间的联系,这都需要你进一步思考。就在以上的 AI 辅助下,我们的分镜头剧本就完成啦。(如下图)
1. 主角人物生成
剧本中的两位主人公,共 3 个形象,分别是年轻船员:开朗积极、充满好奇;老船长:经验丰富、坚韧不拔,以及老船长年轻时候的形象。通过性格特征和时代背景,描绘人物的提示词、上传角色参考图--cref,最后将角色背景扣除以便于进行角色加背景的融合生成时进行垫图操作。以老船长年轻形象为例,生成了全身、半身、侧身等多角度人物图。
2. 场景画面生成
根据剧本创作,场景主要概括为三个场景部分,分别是海上、沙漠、市集。提示词从剧本中的画面描述进行提取。生成过程均采用文生图模式,画面风格选择前期准备好的风格图进行垫图。
3. 带主角人物的画面生成
上传角色图、场景背景进行参考生成,使得人物和场景的融合度更高。
通过以上阶段,我们的台词、剧本、风格、人物形象、画面场景就都确立好啦。
小插曲:感谢团队小伙伴积极投入在本次创作中,分工明确,协同并进,最终产出一份较为满意的作品。当然最最最可爱且重要的是:留下关注、收藏、认知看完文章的你~
现在画面静态图片有了,那么接下来该让图片动起来了吧......
使用即梦进行图生视频,只需上传图片至视频生成模块,提示词简单描绘画面中的动态内容即可。能生成时长为 3 秒钟的画面。
运镜类型可根据剧本中的镜头描绘设置,主要设置以随机运镜为主。生成速度根据我们的视频节奏,选择了慢速。
生成效果:如下方这类由图片+简单提示词生成出的 3 秒时长的短视频。
1. 音乐生成
AI 生成音乐的工具使用的是 Suno,它能够根据用户对音乐的具体描述,快速生成符合预期的音乐作品。这不仅能够为我们的视频增添独特的音乐元素,也能进一步提升视频作品的艺术性和观赏性。本次制作共生成了 30 首歌曲,从中挑选出符合视频节奏的背景音乐。
2. 人声配音生成
本次人物对白比较简单,经过对比我们选择了即开即用的 ondoku 进行配音,输入文字后就可以快速得到配音文件。
后期合成主要使用了剪映,即梦 AI 生成的视频时长是 3 秒钟,并非整个 3 秒都能使用,根据剧本和画面内容,需要做部分截取。合成的过程中,会发现画面内容出现不协调情况,或者出现画面内容缺少的情况,需要重新生成画面视频进行补充。不过大多数情况下,画面原有的素材能够应对剪辑工作。视频音乐再合成时也可以进行画面匹配后再听听音乐是否协调。
视频轨道层分别是:台词层、效果层(关键帧、蒙版)、视频画面(AI 生成的视频画面加闭幕)、人声台词、音效、背景音乐。
结语
随着 AI 技术的不断进步,AI 在视频领域的应用将会更加广泛和深入。尽管《丝路追风》还有很多的不足,但是创作和探索的过程本身就是一个乐趣。希望这次的拆解流程分享也能为大家打开一扇新的窗户,能对 AI 生成视频有大致的流程认识。期待在未来随着技术的不断革新,工具日益完善,我们的创作能够不断进步!
复制本文链接 文章为作者独立观点不代表优设网立场,未经允许不得转载。
发评论!每天赢奖品
点击 登录 后,在评论区留言,系统会随机派送奖品
2012年成立至今,是国内备受欢迎的设计师平台,提供奖品赞助 联系我们
AI绘画创意与实战
已累计诞生 655 位幸运星
发表评论 已发布10条
↓ 下方为您推荐了一些精彩有趣的文章热评 ↓