Github 上的一个名为 OpenVoice 的 AI 语音克隆项目爆火,该项目由 myshell-ai 开源,仅开源了不到三周,就有了 6.1k 的 star。
OpenVoice能对声音风格的精细控制,包括情感、口音、节奏、停顿和语调,同时能够复制参考发言者的音色。
主要功能: - 准确的音色克隆:OpenVoice能够精确地克隆参考音色,并在多种语言和口音中生成语音。 - 灵活的声音风格控制:用户可以控制生成语音的情感和口音,以及其他风格参数,如节奏、停顿和语调。 - 零样本跨语言声音克隆:OpenVoice可以在未包含在大规模多语言训练集中的任何语言之间进行声音克隆。
试玩地址: https://github.com/myshell-ai/OpenVoice
WonderJourney 是斯坦福与谷歌打造,而且这个项目有点厉害啊,只需要1张图片就可以创建3D场景动画,从用户提供的任何位置(通过文本描述或图像)开始,并通过一系列不同但连贯的 3D 场景生成一个旅程。从演示效果来看非常流畅,3D游戏或者影视的场景创建要变简单了。
主要能力: ◆ 从任意位置(由文本或图像指定)开始,WonderJourney 沿着相机轨迹生成一系列多样化但连贯连接的 3D 场景。 ◆ 从同一个地点开始,WonderJourney 可以生成一组不同的“奇妙旅程”,并在不同的目的地结束。使用相机姿势的轨迹渲染下面的每个视频。 ◆ WonderJourney 还可以根据一系列文本描述(例如诗歌、俳句和故事摘要)生成受控的奇妙旅程。
大家有刷到这张蒙娜丽莎做瑜伽的动图吗?
这是用字节跳动最新发布的 MagicAnimate 生成的,这个AI视频工具和昨天给大家分享的阿里 Animate Anyone 创新视频生成技术一样,只需一张图片即可生成平滑稳定的视频。更离谱的是,字节 MagicAnimate 还支持与文本结合创建动画,并支持多人照片合成。
MagicAnimate 是新加坡国立大学和字节跳动联合推出的「人体图像动画生成器」,能够把指定的人物图片按照既定动作序列生成视频。其主要功能特点包括时间一致性动画,该框架通过运动序列使参考图像动起来,并确保动画在时间上的连贯性,呈现自然流畅的动作,避免突兀的变化。
同时,MagicAnimate在动画化过程中能够保持对原始参考图像的高度忠实度,确保动画中的人物或对象与原图保持一致。
感兴趣的小伙伴可以关注起来,现在国产AI工具已经慢慢开始发力了,大家可以期待一下功能更强大的国产AI工具!
大家关注了吗?今天凌晨的时候,OpenAI在官网宣布,在今年10月份将通过API向ChatGPT Plus和企业版用户提供全新文本生成图片产品——DALL·E 3。
官方是这样介绍的: “ DALL·E3 原生构建于 ChatGPT 之上,让您可以使用ChatGPT作为集思广益的合作伙伴并完善您的提示。只需询问 ChatGPT您想看到什么,从简单的句子到详细的段落。
ChatGPT中的 DALL·E3当提出想法时,chatGPT 将自动为DALL·E3生成定制的详细提示,将您的想法变为现实。如果您喜欢某个特定图像,但它不太正确,您可以要求 ChatGPT 只需几句话即可进行调整。”
这是否意味着,ChatGPT在DALL·E 3加持下将开启久违的多模态输出模式呢?还会带来哪些其他的变化?我们拭目以待吧!