一键部署Fish Speech 1.5：快速搭建个人语音合成服务，免费使用

Jay星晴

213人浏览 · 2026-04-28 04:56:08

Jay星晴 · 2026-04-28 04:56:08 发布

一键部署Fish Speech 1.5：快速搭建个人语音合成服务，免费使用

1. 为什么选择Fish Speech 1.5

Fish Speech 1.5是当前最先进的文本转语音(TTS)开源模型之一。与市面上其他语音合成工具相比，它有几个独特优势：

零样本语音克隆：只需10-30秒的参考音频，就能克隆任意音色
多语言支持：支持中、英、日、韩等13种语言的高质量语音合成
无需微调：直接使用预训练模型，省去复杂的训练过程
高质量输出：5分钟英文文本错误率低至2%，语音自然流畅

2. 快速部署指南

2.1 准备工作

在开始部署前，请确保您已具备以下条件：

一台配备NVIDIA GPU的服务器（显存≥6GB）
已安装Docker和NVIDIA容器运行时
稳定的网络连接

2.2 一键部署步骤

拉取镜像：

docker pull csdn-mirror/fish-speech-1.5:latest

启动容器：

docker run -d --gpus all -p 7860:7860 -p 7861:7861 \
  --name fish-speech \
  csdn-mirror/fish-speech-1.5:latest

等待服务启动：
```
docker logs -f fish-speech
```
当看到"Running on http://0.0.0.0:7860"时，表示服务已就绪

3. 使用Web界面

3.1 访问WebUI

在浏览器中打开：

http://<您的服务器IP>:7860

您将看到简洁直观的操作界面，分为三个主要区域：

输入区：输入要转换为语音的文本
参数区：调整语音生成参数
输出区：播放和下载生成的语音

3.2 生成第一段语音

在输入框中输入文本（支持中文和英文）
点击"生成语音"按钮
等待2-5秒，右侧将显示生成的语音
点击播放按钮试听，或下载WAV文件

4. API调用方法

4.1 基础TTS API

通过HTTP POST请求调用：

curl -X POST http://localhost:7861/v1/tts \
  -H "Content-Type: application/json" \
  -d '{"text":"你好，这是API测试","reference_id":null}' \
  --output output.wav

4.2 语音克隆API

要克隆特定音色，需要提供参考音频：

curl -X POST http://localhost:7861/v1/tts \
  -H "Content-Type: multipart/form-data" \
  -F "text=这是使用克隆音色生成的语音" \
  -F "reference_audio=@sample.wav" \
  --output cloned.wav

5. 实用技巧与建议

5.1 提升语音质量

文本预处理：适当添加标点符号，避免过长句子
参数调整：
- 温度(temperature)：0.7-0.9可获得更自然的语音
- 最大长度(max_tokens)：根据文本长度适当增加

5.2 常见问题解决

问题	解决方法
生成速度慢	检查GPU使用情况，确保CUDA正常工作
语音不连贯	检查输入文本是否有异常字符或格式问题
音色不一致	确保参考音频质量高，环境安静
服务无响应	重启容器，检查日志排查错误