ChatTTS

ChatTTS 是一个用于对话场景的文本转语音的强大工具

1
2
3
4
5
6
7
8
9
10
11
12
13
14
git clone git@github.com:2noise/ChatTTS.git
cd ChatTTS

# 使用 https://www.tech-odyssey.cn/2024/06/24/AI/Computing-Startup/ 已经创建好的 conda-gpu 环境
pip install -r requirements.txt -i https://pypi.tuna.tsinghua.edu.cn/simple

# 以下是为适配 GPU,可以快速生成
# 注意:安装编译十分缓慢
pip install git+https://github.com/NVIDIA/TransformerEngine.git@stable -i https://pypi.tuna.tsinghua.edu.cn/simple
pip install flash-attn --no-build-isolation -i https://pypi.tuna.tsinghua.edu.cn/simple

# 需要手动一一下载模型文件: https://huggingface.co/2Noise/ChatTTS
# 启动一个 WebUI
python examples/web/webui.py

运行示意图:

UI
Backend

示例结果:

Demo

一个基础的测试:

1
2
3
4
5
6
7
8
9
10
11
12
13
import ChatTTS
import torch
import torchaudio

chat = ChatTTS.Chat()
chat.load(compile=False) # Set to True for better performance

texts = ["你好,欢迎来到上海", "你好,我是你的私人助理"]

wavs = chat.infer(texts)

for i in range(len(wavs)):
torchaudio.save(f"basic_output{i}.wav", torch.from_numpy(wavs[i]).unsqueeze(0), 24000)

在 WSL 中,我们需要播放这个.wav,使用 VLC 来简单打开并播放它。参考 在适用于 Linux 的 Windows 子系统上运行 Linux GUI 应用

1
2
3
# Ref: https://learn.microsoft.com/zh-cn/windows/wsl/tutorials/gui-apps
sudo apt install vlc -y
cvlc basic_output0.wav # will not create a window.