往期作者干货:
中文,在 AI 世界,好像突然一夜崛起了。
一直以来,AI 绘图和 AI 声音,都有类似的痛点:
无法直出中文海报,以及克隆的中文声音几乎没法听。
而前者,随着上周的即梦 v2.1,得到了很好的解决。后者,过往有 N 多产品试图去解决,但是解决的都很差。
闭源的有 11labs,英文强到爆炸,中文几乎没法听总是一股子大佐味。开源的,有 F5、GPT-sovits、ChatTTS 等等,但是不仅本地部署使用困难,出来的情绪说实话,也不咋地。
而这个周末,中文的语音克隆痛点,我发现,被解决了。
幸福来的如此突然。
我直接给大家听一段我用克隆的 AI 唐国强老师,念满江红的语音。
震撼的我头皮发麻。
玩了将近 2 年的 AI 声音了,我也是第一次见,能用中文念诗,念的如此情绪饱满的 AI 声音。
而这,仅仅只需要,30 秒的音频素材就可以。
给我 30 秒,我就可以,偷走你的声音。
这个 AI 语音,来自 MiniMax 的海螺 AI。
嗯,就是那个把人物情绪表演拉满,在海外 AI 视频圈大杀特杀的海螺 AI。
周末我打开海螺 AI,准备跑几个 case 视频的时候,意外的发现,他们悄悄的居然在海外版上线了 Audio 模块。
今年 1 月我就写过一篇海螺 AI 声音克隆的文章,但是那时候,只能在 AI 助手上,克隆你自己。
而现在,可以克隆任何人了。
在火速体验完以后,我终于可以说:
这就是当今最强的,AI 中文语音克隆,没有之一。
一周时间,AI 绘图和 AI 声音,中文世界两开花。
这两年,你知道我们是怎么过来的吗。
突然有点泪目,兄弟们,过年了,真的。
海螺 AI Audio 网址在此: https://www.hailuo.ai/audio
最顶上左边的就是 Audio,刚刚新上的声音功能,最右边那个就是之前爆火的 Video。
最爽的是,目前免费,不要钱。
海螺 AI 的 Audio 用起来也非常的简单,最左边的侧边栏,分为两个 tab。
第一个是 Text to Speech(TTS),也就是你克隆完的声音模型可以在这个地方进行文字生成音频了。
第二个就是 Voices,可以在里面进行声音的克隆。
我做个 case,给大家详细演示一下。
我们先进入到 Voices 页面。
直接点那个“创建您的声音克隆”按钮,目前每个人可以免费创建 3 个声音。
你可以上传语音,也可以直接录音。
上传的语音最少上传 10s 的音频片段就可以克隆了,不过这个样本其实不是特别够,所以我一般推荐音频素材最好在 30s 左右,当然你也可以更长,不过一般不需要超过 5 分钟。
这里我直接去 B 站,扒了一段唐国强老师在《三国演义》里面的朗诵片段。
扒出来的声音素材是这样的,你们可以听一下。
情绪起伏很大,抑扬顿挫拉满,非常完美的原始素材。
直接上传到海螺 AI 里面去。
有个降噪选项,可选可不选,如果你的素材比较纯净干净,可以不用。开的话可以帮你把一些背景音什么的都剔除掉。
最后需要选一下原始素材的语言,海螺 AI 支持 12 种语言,分别是:
中文、粤语、英语、韩语、日语、印尼语、西语、葡语、法语、意大利语、俄语、德语。
你的原始素材的语言是什么样的,就选什么语言,克隆出来的声音模型就会得到最好的效果,比如我上传的这个唐国强老师的素材是中文的,就选中文就行。
很快,大概只要几十秒的时间,唐国强老师的声音,就克隆好了。
回到 TTS 界面。
点击此位置,就可以切换到刚刚克隆完的唐国强老师的声音模型。
我们直接,让唐国强老师,来念一首李白的《将进酒》吧。
这首诗我太喜欢了,《长安三万里》李白那一段上天入地,驾鹤登仙的演绎,更是将这首诗在我心中的地位,推向了最巅峰。
我们直接把《将进酒》的最后一段扔进去。
“主人何为言少钱,径须沽取对君酌。五花马,千金裘,呼儿将出换美酒,与尔同销万古愁。”
海螺有个非常牛逼的点是,可以支持切换情绪。
目前有六种情绪:开心、生气、悲伤、惊讶、恐惧、厌恶。
《将进酒》的最后一段,在我的认知里,虽然一种愤慨,有一种激昂,但是底层情绪,确是悲凉的。
我只要一瞬,却也要让这世间,看到我这一瞬的光辉。
所以,在海螺 AI 的情感选择上,我选了悲伤。
点击生成,几秒钟的时间,一段语音,就出现在了你的面前。
为了更加形象的展示,我把这段音频做了个照片驱动对口型,视频看起来更直观一些。
又比如,我们可以再克隆一个林黛玉的声音。
让她来催一催鲜虾包。
这声音,直接人麻了。
林黛玉的声音和情绪,都被还原到了极致。
而这句话,如果让 11labs 克隆林黛玉的声音来念呢,我给你们听一下,有多么的鬼畜。
这就是我在文章开头,说的一股子大佐味。
不是说 11labs 不好,11labs 一直以来是世界上公认的最强的 AI 声音产品,但是在中文表现上,真的是没法用的状态。
而这一次,海螺 AI 挺身而出,终于,补足了中文领域几乎是空白的短板,把中文的声音克隆的音色相似度和情绪,推上了巅峰。
成功率也极高,我想说的是,我上面所有的 case,全部是一遍直出,没有抽过一次卡,这点,真的难能可贵。
再给大家看一个影视飓风 TIM 的例子。
影视飓风是我最喜欢以及最崇拜的频道,没有之一。相信看过影视飓风的观众也都无数次听过 TIM 那句:
“Hello 大家好,我是 TIM,欢迎收看影视飓风。”
而这一次,我们让 AI 来说这句话,让大家听听,海螺 AI 的复刻有多么的强。
注意,为了避免拟合,所以我在上传到海螺 AI 的 30 秒 TIM 的素材里,是没有这句开场白的,都是他在聊一些别的东西。
AI 直出如下,让李四维化身 TIM:
跟我记忆中已经听过无数次的 TIM 的开场白,没有任何区别。
这就是现在海螺 AI,能达到的程度。
这就是现在,最强的 AI 中文声音克隆,没有之一。
作为一个见证了这两年 AI 发展的亲历者,这一周的感受格外强烈。
从即梦让中文海报一夜之间"通关",到海螺 AI 让中文语音克隆达到了前所未有的高度,我仿佛看到了中文 AI 能力的爆发时刻。
想想两年前,我们还在为中文大模型和国际巨头的差距而焦虑。
那时的 AI 世界,几乎是英语的独角戏。
中文的存在感,就像是一个可有可无的配角。
但现在,这个局面正在被改写。
当我们能用 AI 轻松制作出中文海报,当唐国强老师的声音能被完美克隆,当林
黛玉的语气都能被精准还原。
也许,这就是属于中文世界的 AI 时代的序章。
而这一切,才刚刚开始。
以上,既然看到这里了,如果觉得不错,随手点个赞、转发吧~谢谢你看我的文章,我们,下次再见。
欢迎关注作者的微信公众号:数字生命卡兹克
复制本文链接 文章为作者独立观点不代表优设网立场,未经允许不得转载。
发评论!每天赢奖品
点击 登录 后,在评论区留言,系统会随机派送奖品
2012年成立至今,是国内备受欢迎的设计师平台,提供奖品赞助 联系我们
AI时代的设计师生存手册
已累计诞生 648 位幸运星
发表评论 已发布4条
↓ 下方为您推荐了一些精彩有趣的文章热评 ↓