全球主机交流论坛

标题: 【自部署】TTS文本转语音大模型(docker一键使用) [打印本页]

作者: Eureka    时间: 2025-9-27 17:12
标题: 【自部署】TTS文本转语音大模型(docker一键使用)
本帖最后由 Eureka 于 2025-9-29 00:01 编辑

马上国庆节了,写了个玩具给大伙耍耍。

众所周知,阿里开源的Cosyvoice文本转语音大模型的效果非常的不错,

我也把玩了很久

但苦于没有高性能的显卡(租的卡总有一种紧迫感,用得不舒坦  ),所以写了个纯CPU运行的版本。

相较于官方原版:

CPU推理时 原版   精简后
内存占用   4G+   4G+
硬盘占用   20G+   8.93G
速度相同   50s/it   50s/it

对于原版,做了以下处理:

1. 剔除不必要的Python环境依赖模型文件,硬盘占用减少10G

2. 基于python:3.10-slim镜像(裸镜像仅43M大小),并且使用Docker打包,系统更轻量的同时,不会遇到安装报错、版本不兼容、网络错误等等等等问题,小白也能轻松部署。

3. 重写了WebUI,(原版UI仅供测试使用,并且解决了第一次生成时,无法获取音频的问题),步骤指导更清晰!


硬件要求:
- 物理内存推荐 8G,不够的话再加swap缓存也能跑,但是慢。
- 硬盘剩余空间大于 10G
- 流量消耗大约 10G
- CPU在推理时,会满载95%+(注意vps商家有无限制)


好了,说了那么多,下面就是详细步骤了:
第一步:将下面内容保存为docker-compose.yml
  1. services:
  2.   cov:
  3.     image: eureka6688/cosyvoice:latest # arm架构请将"latest"替换成"arm"
  4.     container_name: cov
  5.     ports:
  6.       - "50000:50000"
  7.     command: ["python", "web.py", "--port", "50000"]
  8.     stdin_open: true
  9.     tty: true
  10.     restart: unless-stopped
复制代码

第二步:在保存docker-compose.yml的目录下运行以下命令
  1. docker compose up -d
复制代码

等待10分钟,也许更久,就能够在 http://localhost:50000 访问到web服务界面了

没错,就这么简单!

接下来用nginx反代使用也好,ssh隧道转发到本地使用也可以,甚至可以直接打开防火墙50000端口,再通过公网IP+50000端口访问都没问题(注意网络安全!)
作者: swds    时间: 2025-9-27 17:33
有ARM版没. 甲骨文arm闲置中
作者: Eureka    时间: 2025-9-27 17:59
swds 发表于 2025-9-27 17:33
有ARM版没. 甲骨文arm闲置中

没有额
作者: fxzou    时间: 2025-9-27 18:00
感谢分享
作者: Eureka    时间: 2025-9-27 18:01
本帖最后由 Eureka 于 2025-9-29 00:50 编辑

演示效果请移步:https://gallery.chaomeng.de/?cosyvoice_demo

新增ARM版,移步:https://fd.vvwvv.eu.org/thread-1437008-1-1.html
作者: 扫地僧    时间: 2025-9-27 18:13
Eureka 发表于 2025-9-27 17:59
没有额

源码开源么?可以的话我帮编译一个
作者: Eureka    时间: 2025-9-27 18:18
扫地僧 发表于 2025-9-27 18:13
源码开源么?可以的话我帮编译一个

这个就是源项目,https://github.com/FunAudioLLM/CosyVoice

构建arm的话,得修改代码,因为源项目没有提供arm的依赖工具,所以我这套在arm系统下也是编译构建不成功的。

源码的话,就一个Dockerfile,和一些配置。
作者: 杜甫    时间: 2025-9-27 19:02
论坛这样的好帖越来越少了。
作者: 半夏    时间: 2025-9-27 19:06
感谢大佬分享
作者: van    时间: 2025-9-27 19:49
6啊,老哥,试试看
作者: ===    时间: 2025-9-28 08:35
感谢大佬开源,感谢感谢
作者: sortie    时间: 2025-9-28 10:35
顶大佬,好帖收藏。
作者: 流星i    时间: 2025-9-28 12:35
大佬666,如果加个本地搭建就好了
作者: Eureka    时间: 2025-9-28 23:37
swds 发表于 2025-9-27 17:33
有ARM版没. 甲骨文arm闲置中

打包了个arm版,完整docker-compose.yml如下:
  1. services:
  2.   cov:
  3.     image: eureka6688/cosyvoice:arm
  4.     container_name: cov
  5.     ports:
  6.       - "50000:50000"
  7.     command: ["python", "web.py", "--port", "50000"]
  8.     stdin_open: true
  9.     tty: true
  10.     restart: unless-stopped
复制代码

作者: Eureka    时间: 2025-9-28 23:40
swds 发表于 2025-9-27 17:33
有ARM版没. 甲骨文arm闲置中

打包了个arm版,完整docker-compose.yml如下:
  1. services:
  2.   cov:
  3.     image: eureka6688/cosyvoice:arm
  4.     container_name: cov
  5.     ports:
  6.       - "50000:50000"
  7.     command: ["python", "web.py", "--port", "50000"]
  8.     stdin_open: true
  9.     tty: true
  10.     restart: unless-stopped
复制代码

作者: Eureka    时间: 2025-9-28 23:42
swds 发表于 2025-9-27 17:33
有ARM版没. 甲骨文arm闲置中

打包了个arm版,完整docker-compose.yml如下:
  1. services:
  2.   cov:
  3.     image: eureka6688/cosyvoice:arm
  4.     container_name: cov
  5.     ports:
  6.       - "50000:50000"
  7.     command: ["python", "web.py", "--port", "50000"]
  8.     stdin_open: true
  9.     tty: true
  10.     restart: unless-stopped
复制代码

作者: HDFSKYCAT    时间: 2025-9-29 00:09
这个不错!感谢大佬分享!
作者: 元宇宙    时间: 2025-9-29 02:55
可以根据字幕文件来配音吗.
可以对上时间轴的.




欢迎光临 全球主机交流论坛 (https://fd.vvwvv.eu.org/) Powered by Discuz! X3.4