Zonos语音生成质量非常高,而且这次有中文,以下是主要特点:
1、两种1.6B 模型,transformer 和 SSM
2、用5到30秒的语音进行高保真语音克隆
3、可以调节速度,音高,音频质量和情绪
4、添加文本和音频前缀,实现更丰富的说话人匹配效果
5、在 RTX 4090 显卡上运行时,实时率约为 2 倍
模型下载:https://huggingface.co/Zyphra/Zonos-v0.1-hybrid
Zonos语音生成质量非常高,而且这次有中文,以下是主要特点:
1、两种1.6B 模型,transformer 和 SSM
2、用5到30秒的语音进行高保真语音克隆
3、可以调节速度,音高,音频质量和情绪
4、添加文本和音频前缀,实现更丰富的说话人匹配效果
5、在 RTX 4090 显卡上运行时,实时率约为 2 倍
模型下载:https://huggingface.co/Zyphra/Zonos-v0.1-hybrid