全球主机交流论坛

标题: 【自部署】TTS文本转语音大模型（docker一键使用） [打印本页]

作者: Eureka 时间: 2025-9-27 17:12
标题: 【自部署】TTS文本转语音大模型（docker一键使用）
本帖最后由 Eureka 于 2025-9-29 00:01 编辑

马上国庆节了，写了个小玩具给大伙耍耍。

众所周知，阿里开源的Cosyvoice文本转语音大模型的效果非常的不错，

我也把玩了很久

但苦于没有高性能的显卡（租的卡总有一种紧迫感，用得不舒坦

），所以写了个纯CPU运行的版本。

相较于官方原版：

CPU推理时原版精简后
内存占用 4G+ 4G+
硬盘占用 20G+ 8.93G
速度相同 50s/it 50s/it

对于原版，做了以下处理：

1. 剔除不必要的Python环境依赖和模型文件，硬盘占用减少10G

2. 基于python:3.10-slim镜像（裸镜像仅43M大小），并且使用Docker打包，系统更轻量的同时，~~不会遇到~~安装报错、版本不兼容、网络错误等等等等问题，小白也能轻松部署。

3. 重写了WebUI，（原版UI仅供测试使用，并且解决了第一次生成时，无法获取音频的问题），步骤指导更清晰！

硬件要求：
- 物理内存推荐 8G，不够的话再加swap缓存也能跑，但是慢。
- 硬盘剩余空间大于 10G
- 流量消耗大约 10G
- CPU在推理时，会满载95%+（注意vps商家有无限制）

好了，说了那么多，下面就是详细步骤了：
第一步：将下面内容保存为docker-compose.yml

services:
cov:
image: eureka6688/cosyvoice:latest # arm架构请将＂latest＂替换成＂arm＂
container_name: cov
ports:
- "50000:50000"
command: ["python", "web.py", "--port", "50000"]
stdin_open: true
tty: true
restart: unless-stopped

复制代码

第二步：在保存docker-compose.yml的目录下运行以下命令

docker compose up -d

复制代码

等待10分钟，也许更久，就能够在 http://localhost:50000 访问到web服务界面了

没错，就这么简单！

接下来用nginx反代使用也好，ssh隧道转发到本地使用也可以，甚至可以直接打开防火墙50000端口，再通过公网IP+50000端口访问都没问题（注意网络安全！）

作者: swds 时间: 2025-9-27 17:33
有ARM版没. 甲骨文arm闲置中

作者: Eureka 时间: 2025-9-27 17:59

swds 发表于 2025-9-27 17:33
有ARM版没. 甲骨文arm闲置中

没有额

作者: fxzou 时间: 2025-9-27 18:00
感谢分享

作者: Eureka 时间: 2025-9-27 18:01
本帖最后由 Eureka 于 2025-9-29 00:50 编辑

演示效果请移步：https://gallery.chaomeng.de/?cosyvoice_demo

新增ARM版，移步：https://fd.vvwvv.eu.org/thread-1437008-1-1.html

作者: 扫地僧 时间: 2025-9-27 18:13

Eureka 发表于 2025-9-27 17:59
没有额

源码开源么？可以的话我帮编译一个

作者: Eureka 时间: 2025-9-27 18:18

扫地僧发表于 2025-9-27 18:13
源码开源么？可以的话我帮编译一个

这个就是源项目，https://github.com/FunAudioLLM/CosyVoice

构建arm的话，得修改代码，因为源项目没有提供arm的依赖工具，所以我这套在arm系统下也是编译构建不成功的。

源码的话，就一个Dockerfile，和一些配置。

作者: 杜甫 时间: 2025-9-27 19:02
论坛这样的好帖越来越少了。

作者: 半夏 时间: 2025-9-27 19:06
感谢大佬分享

作者: van 时间: 2025-9-27 19:49
6啊，老哥，试试看

作者: === 时间: 2025-9-28 08:35
感谢大佬开源，感谢感谢

作者: sortie 时间: 2025-9-28 10:35
顶大佬，好帖收藏。

作者: 流星i 时间: 2025-9-28 12:35
大佬666，如果加个本地搭建就好了

作者: Eureka 时间: 2025-9-28 23:37

swds 发表于 2025-9-27 17:33
有ARM版没. 甲骨文arm闲置中

打包了个arm版，完整docker-compose.yml如下：

services:
cov:
image: eureka6688/cosyvoice:arm
container_name: cov
ports:
- "50000:50000"
command: ["python", "web.py", "--port", "50000"]
stdin_open: true
tty: true
restart: unless-stopped

复制代码

作者: Eureka 时间: 2025-9-28 23:40

swds 发表于 2025-9-27 17:33
有ARM版没. 甲骨文arm闲置中

打包了个arm版，完整docker-compose.yml如下：

services:
cov:
image: eureka6688/cosyvoice:arm
container_name: cov
ports:
- "50000:50000"
command: ["python", "web.py", "--port", "50000"]
stdin_open: true
tty: true
restart: unless-stopped

复制代码

作者: Eureka 时间: 2025-9-28 23:42

swds 发表于 2025-9-27 17:33
有ARM版没. 甲骨文arm闲置中

打包了个arm版，完整docker-compose.yml如下：

services:
cov:
image: eureka6688/cosyvoice:arm
container_name: cov
ports:
- "50000:50000"
command: ["python", "web.py", "--port", "50000"]
stdin_open: true
tty: true
restart: unless-stopped

复制代码

作者: HDFSKYCAT 时间: 2025-9-29 00:09
这个不错！感谢大佬分享！

作者: 元宇宙 时间: 2025-9-29 02:55
可以根据字幕文件来配音吗.
可以对上时间轴的.

欢迎光临全球主机交流论坛 (https://fd.vvwvv.eu.org/)