VoxCPM2 語音克隆 TTS 生成音色不穩定

? 离线

@terry 就是挺简单根据刘悦那个视频教程来就行了，https://www.youtube.com/watch?v=HUPxh1sCDpA
主要优势就是声音比较自然，AI味不明显，用来设计音色也是很不错的，我弄的语音音色就是用它抽卡抽出来的；
当然我也试了用comfyui工作流来QWEN3 TTS，出来的效果比不上整合包，具体原因我也没有深入研究，整合包出来效果就是要好很多。

terry

@t68823878 不要用comfyui部署，直接在linux下就可以部署Qwen TTS，改天我测试下，上次我记得跑过整合包，稍微体验了下。过几天试试看。

0xsltomorrow

@terry 對啊我選他主要是可以本地運行廣東話TTS
而且音色不像Elevenlabs 有點機械音的感覺
用幾十分鐘的內容訓練個LoRa就連上面講會走音的問題也秒殺掉
但有些字他總是讀錯還在研究怎樣解決哈

张老师

刚刚前几天做了这个项目，我对它进行了很多的魔改，当时也遇到了克隆声音效果不好，必须把参数调得很高，那样的话渲染的时间又很长！
然后通过音色设计，抽卡一个比较靠谱的声音，记住它的种子号！然后又遇到了长文爆显存，后来就变成了分段渲染（刚好可以修改不满意的部分，而不用整段渲染），但是分段渲染，又遇到了同一个种子声音发出了不同的声音！最后想了一个办法，分段渲染时，先渲染一段相同的语句作为参考点（不显示）强制让它分段渲染的声音一致！反正这个项目折腾了很久！总算可以商用的版本！

terry

@张老师你试试看Linux，wsl2都比它快很多，我4090能跑到50t/s，xtx 20t/s，你看看你的日志对比下就知道了，voxcpm的win整合包一般速读哦堵很慢。

张老师

@terry 大神好，感谢回复，目前我这套模式还可以接受1:3的比例吧，一分钟，3分钟时间渲染！至于到其他系统里面去折腾，等我也去旁边医院里问一下我的一个肾值多少钱，是否能买下4090 48G的显卡！买了显卡我再去折腾吧！哈哈

terry

@张老师那挺慢的，你换Linux就能快点。不需要卖肾。

张老师

@terry 说:

不需要卖肾。

哈哈，学你视频里幽默的方式，好的，我有空了去搞个洋垃圾组合也试试Ubuntu 服务器吧！到时候过来分享哦

terry

@张老师主力工作机器不要和AI部署机器放到一起是对的，你就给显卡配置个洋垃圾，让它独立运行，使劲造，坏了就重装。思路是对的。

zeroxin

我所有的电脑都是洋垃圾E5平台，一台是5070TI 128G内存，一台3060 12G+64内存，一台2070 8G+32G内存，前两台跑龙虾+comfyui ,第三台只能办公了

weidong

我觉得indextts挺好用的，在苹果下生成速度还过得去

youtubevic

請問怎樣可以給Hermes 妹妹發聲啊？他每次都要調用VOXCPM v2?

kop wang

@youtubevic Hermes的TTS有几条路径。
1、Hermes官方支持的接口。比如微软的本地EDGE TTS，免费，性能超好。代价就是一耳朵机器人味。
2、用第三方模型，比如楼主介绍的，或者我的方案：https://lcz.me/topic/116/hermes-tts-语音回复-discord语音频道交互-本地搭建分享-4gb显存要求
3、自己接的第三方API，可以通过skill让Hermes调用。

youtubevic

感謝幫忙介紹。謝謝

抡锤者

VoxCPM2 語音克隆 TTS 生成音色不穩定