- Published on
ChatTTS
- Authors
- Name
- Foolgry
- @foolgryw
ChatTTS 是一款专为对话场景设计的文本到语音(TTS)模型,例如与大型语言模型(LLM)助手进行对话任务、对话音频和视频介绍。
项目链接地址:ChatTTS
概述
支持英语和中文两种语言 在大约 10 万小时的中文和英文数据上进行训练,从而实现高质量和自然的语音合成 针对对话任务中的自然、会话式语音进行了优化 提供多说话人能力和对韵律特征(如笑声、停顿和填充词)的精细控制
特点
多语言支持:处理英语和中文语言,克服语言障碍 大数据训练:大约 1000 万小时的广泛训练,以实现高自然度 对话任务兼容性:非常适合 LLM 助手的对话任务,实现流畅的会话互动 开源计划:团队计划开源一个训练好的基模型,用于研究和开发 控制和安全:努力提高可控性,添加水印,并与 LLMs 集成以提高安全性和可靠性 易用性:仅需文本输入即可生成相应的语音文件,简化了过程
使用
基本使用涉及导入所需的库,初始化 ChatTTS 实例,加载预训练模型,提供输入文本,并使用 infer 方法生成语音。然后可以使用 IPython.display.Audio 类播放生成的音频。