VoxCPM2 語音克隆 TTS 生成音色不穩定

0xsltomorrow

@terry 2.0 可以抽卡設計音色但不一定抽到好卡
另外增加了日語、韓語及多種方言支援 ~~(其他方言我不懂，但日、韓、粵語聽起來都是怪怪的)~~

0xsltomorrow

@linax777 請問你 Ultimate Clone 一段話時間大概多長？
我用粵語的沒加載LoRa情況下每句不能超過10秒
10秒開始他就變成一種新的方言了

terry

它可以克隆音色，然后你用工具微调下，再克隆，干嘛要抽卡呢？voxcpm可以直接运行你知道吗？直接用python脚本调用，别说几十秒，我的视频都是七八分钟，十几分钟的。脚本一步到位🤪

linax777

@0xsltomorrow Ultimate Clone 沒試過太多次
使用 HTTP API 調用生成幾次之後就變成隨機音色女聲變男聲
再試幾天沒有改善可能要換成使用 Qwen3-TTS

terry

@linax777 voxcpm是流式API，你可以分段的，音频可以用ffpmeg代码修理，qwen TTS 在克隆方面远不如voxcpm，它的优势是多音色。

? 离线

我是才开始接触AI音视频，综合对比了一下，我用的刘悦大神的QWEN TTS 1.7B文字转语音整合包，除了长篇幅几千字会出现吞字外，感觉音频质量还是在线的。而且你是不是参考语音片段太长了，都1分钟了，一般不都是10秒左右吗？

terry

@t68823878 刘悦的包好不好用，我下载了，没怎么测试，主要是voxcpm太好用了，发个帖子分享下啊，付出一点。

terry

@0xsltomorrow 多谢，那意义不大，我不想升级。1.5挺好的，我只做中英文，我感觉够强了，过犹不及。

? 离线

@terry 就是挺简单根据刘悦那个视频教程来就行了，https://www.youtube.com/watch?v=HUPxh1sCDpA
主要优势就是声音比较自然，AI味不明显，用来设计音色也是很不错的，我弄的语音音色就是用它抽卡抽出来的；
当然我也试了用comfyui工作流来QWEN3 TTS，出来的效果比不上整合包，具体原因我也没有深入研究，整合包出来效果就是要好很多。

terry

@t68823878 不要用comfyui部署，直接在linux下就可以部署Qwen TTS，改天我测试下，上次我记得跑过整合包，稍微体验了下。过几天试试看。

0xsltomorrow

@terry 對啊我選他主要是可以本地運行廣東話TTS
而且音色不像Elevenlabs 有點機械音的感覺
用幾十分鐘的內容訓練個LoRa就連上面講會走音的問題也秒殺掉
但有些字他總是讀錯還在研究怎樣解決哈

张老师

刚刚前几天做了这个项目，我对它进行了很多的魔改，当时也遇到了克隆声音效果不好，必须把参数调得很高，那样的话渲染的时间又很长！
然后通过音色设计，抽卡一个比较靠谱的声音，记住它的种子号！然后又遇到了长文爆显存，后来就变成了分段渲染（刚好可以修改不满意的部分，而不用整段渲染），但是分段渲染，又遇到了同一个种子声音发出了不同的声音！最后想了一个办法，分段渲染时，先渲染一段相同的语句作为参考点（不显示）强制让它分段渲染的声音一致！反正这个项目折腾了很久！总算可以商用的版本！

terry

@张老师你试试看Linux，wsl2都比它快很多，我4090能跑到50t/s，xtx 20t/s，你看看你的日志对比下就知道了，voxcpm的win整合包一般速读哦堵很慢。

张老师

@terry 大神好，感谢回复，目前我这套模式还可以接受1:3的比例吧，一分钟，3分钟时间渲染！至于到其他系统里面去折腾，等我也去旁边医院里问一下我的一个肾值多少钱，是否能买下4090 48G的显卡！买了显卡我再去折腾吧！哈哈

terry

@张老师那挺慢的，你换Linux就能快点。不需要卖肾。

张老师

@terry 说:

不需要卖肾。

哈哈，学你视频里幽默的方式，好的，我有空了去搞个洋垃圾组合也试试Ubuntu 服务器吧！到时候过来分享哦

terry

@张老师主力工作机器不要和AI部署机器放到一起是对的，你就给显卡配置个洋垃圾，让它独立运行，使劲造，坏了就重装。思路是对的。

zeroxin

我所有的电脑都是洋垃圾E5平台，一台是5070TI 128G内存，一台3060 12G+64内存，一台2070 8G+32G内存，前两台跑龙虾+comfyui ,第三台只能办公了

weidong

我觉得indextts挺好用的，在苹果下生成速度还过得去

youtubevic

請問怎樣可以給Hermes 妹妹發聲啊？他每次都要調用VOXCPM v2?

抡锤者

VoxCPM2 語音克隆 TTS 生成音色不穩定