Github 上的一个名为 OpenVoice 的 AI 语音克隆项目爆火,该项目由 myshell-ai 开源,仅开源了不到三周,就有了 6.1k 的 star。
OpenVoice能对声音风格的精细控制,包括情感、口音、节奏、停顿和语调,同时能够复制参考发言者的音色。
主要功能: - 准确的音色克隆:OpenVoice能够精确地克隆参考音色,并在多种语言和口音中生成语音。 - 灵活的声音风格控制:用户可以控制生成语音的情感和口音,以及其他风格参数,如节奏、停顿和语调。 - 零样本跨语言声音克隆:OpenVoice可以在未包含在大规模多语言训练集中的任何语言之间进行声音克隆。
试玩地址: https://github.com/myshell-ai/OpenVoice
熟悉 Midjourney、Stable Difusion 等 AI 绘画工具的朋友可能遇到这样一个问题:在图像中生成或嵌入精确的文本可能会比较困难。
现在不必太担心了,阿里巴巴集团的研究人员已经开源了一款名为 AnyText 的多语言视觉文字生成与编辑模型。
AnyText在生成文字方面的控制能力可以媲美专业的PS,用户可以自定义文字出现的位置,以及图片的强度、力度、种子数等参数。
目前,它在Github上已经获得了超过2,400颗星的好评。并且 AnyText 可以作为插件无缝集成到其他开源扩散模型中,从而全面增强了图像嵌入精准文本的能力。