ChatTTS

ChatTTS 是一款专为对话场景设计的文本到语音（TTS）模型，例如与大型语言模型（LLM）助手进行对话任务、对话音频和视频介绍。

项目链接地址：ChatTTS

概述

支持英语和中文两种语言在大约 10 万小时的中文和英文数据上进行训练，从而实现高质量和自然的语音合成针对对话任务中的自然、会话式语音进行了优化提供多说话人能力和对韵律特征（如笑声、停顿和填充词）的精细控制

特点

多语言支持：处理英语和中文语言，克服语言障碍大数据训练：大约 1000 万小时的广泛训练，以实现高自然度对话任务兼容性：非常适合 LLM 助手的对话任务，实现流畅的会话互动开源计划：团队计划开源一个训练好的基模型，用于研究和开发控制和安全：努力提高可控性，添加水印，并与 LLMs 集成以提高安全性和可靠性易用性：仅需文本输入即可生成相应的语音文件，简化了过程

使用

基本使用涉及导入所需的库，初始化 ChatTTS 实例，加载预训练模型，提供输入文本，并使用 infer 方法生成语音。然后可以使用 IPython.display.Audio 类播放生成的音频。