VoxCPM2 語音克隆 TTS 生成音色不穩定

linax777

想請教一下各位大神，前幾天嘗試部署 VoxCPM2
並使用語音克隆功能來給我的 Hermes 妹妹發聲
提供了約一分鐘的 wav 音頻當 reference
但是每次生成的語音音色都不太一樣，聽著很不舒服
使用極致克隆好像有 bug 更慘，生成多次後音色都變了
不知道大神們有沒有遇上這種狀況，又是如何解決？

terry

我用的是1.5，2出来了？村里刚通网。

linax777

@terry 4月出 2版了。目前最新是2.0.2

terry

1.5不挺好用的吗，我都用1.5，2有什么特殊改进吗？我抽时间试试看。

terry

你的运行日志要贴出来，或者有截图，然后你载入了modescope采样器没？贴日志。

linax777

只是用最新版。是用 vllm 容器開啟模型沒有詳細日誌晚點再研究

0xsltomorrow

@terry 2.0 可以抽卡設計音色但不一定抽到好卡
另外增加了日語、韓語及多種方言支援 ~~(其他方言我不懂，但日、韓、粵語聽起來都是怪怪的)~~

0xsltomorrow

@linax777 請問你 Ultimate Clone 一段話時間大概多長？
我用粵語的沒加載LoRa情況下每句不能超過10秒
10秒開始他就變成一種新的方言了

terry

它可以克隆音色，然后你用工具微调下，再克隆，干嘛要抽卡呢？voxcpm可以直接运行你知道吗？直接用python脚本调用，别说几十秒，我的视频都是七八分钟，十几分钟的。脚本一步到位🤪

linax777

@0xsltomorrow Ultimate Clone 沒試過太多次
使用 HTTP API 調用生成幾次之後就變成隨機音色女聲變男聲
再試幾天沒有改善可能要換成使用 Qwen3-TTS

terry

@linax777 voxcpm是流式API，你可以分段的，音频可以用ffpmeg代码修理，qwen TTS 在克隆方面远不如voxcpm，它的优势是多音色。

t68823878

我是才开始接触AI音视频，综合对比了一下，我用的刘悦大神的QWEN TTS 1.7B文字转语音整合包，除了长篇幅几千字会出现吞字外，感觉音频质量还是在线的。而且你是不是参考语音片段太长了，都1分钟了，一般不都是10秒左右吗？

terry

@t68823878 刘悦的包好不好用，我下载了，没怎么测试，主要是voxcpm太好用了，发个帖子分享下啊，付出一点。

terry

@0xsltomorrow 多谢，那意义不大，我不想升级。1.5挺好的，我只做中英文，我感觉够强了，过犹不及。

t68823878

@terry 就是挺简单根据刘悦那个视频教程来就行了，https://www.youtube.com/watch?v=HUPxh1sCDpA
主要优势就是声音比较自然，AI味不明显，用来设计音色也是很不错的，我弄的语音音色就是用它抽卡抽出来的；
当然我也试了用comfyui工作流来QWEN3 TTS，出来的效果比不上整合包，具体原因我也没有深入研究，整合包出来效果就是要好很多。

terry

@t68823878 不要用comfyui部署，直接在linux下就可以部署Qwen TTS，改天我测试下，上次我记得跑过整合包，稍微体验了下。过几天试试看。

0xsltomorrow

@terry 對啊我選他主要是可以本地運行廣東話TTS
而且音色不像Elevenlabs 有點機械音的感覺
用幾十分鐘的內容訓練個LoRa就連上面講會走音的問題也秒殺掉
但有些字他總是讀錯還在研究怎樣解決哈

张老师

刚刚前几天做了这个项目，我对它进行了很多的魔改，当时也遇到了克隆声音效果不好，必须把参数调得很高，那样的话渲染的时间又很长！
然后通过音色设计，抽卡一个比较靠谱的声音，记住它的种子号！然后又遇到了长文爆显存，后来就变成了分段渲染（刚好可以修改不满意的部分，而不用整段渲染），但是分段渲染，又遇到了同一个种子声音发出了不同的声音！最后想了一个办法，分段渲染时，先渲染一段相同的语句作为参考点（不显示）强制让它分段渲染的声音一致！反正这个项目折腾了很久！总算可以商用的版本！

terry

@张老师你试试看Linux，wsl2都比它快很多，我4090能跑到50t/s，xtx 20t/s，你看看你的日志对比下就知道了，voxcpm的win整合包一般速读哦堵很慢。

张老师

@terry 大神好，感谢回复，目前我这套模式还可以接受1:3的比例吧，一分钟，3分钟时间渲染！至于到其他系统里面去折腾，等我也去旁边医院里问一下我的一个肾值多少钱，是否能买下4090 48G的显卡！买了显卡我再去折腾吧！哈哈

抡锤者

VoxCPM2 語音克隆 TTS 生成音色不穩定