VoxCPM 實操問題請教 : [ 多次抽卡生成會有20%左右的檔案聲線會跑掉 ]

luck erwin

大家好，已经安装完了 VoxCPM LTX2.3 的数字人 AI 生产环境。
這两天，在实操上有些问题，想要在这边请教各位大佬。

关于 VoxCPN 在实务上的应用，我发现每当大量生成文字转语音档案时，总是会出现一种情况：每 10 个档案中就会有 1 到 3 个档案的声线会跑掉。

我每个文字转语音的排程安排如下：

在 Python 脚本的部分，試著优化：将每次抽卡的种子生成随机顺序都固定为 1

但是实际运行后还是会有10个档案，会有 1 到 2 个档案的声线会跑掉。

请问各位大佬有遇过这样的问题吗？是否有解决方面的经验可以分享，谢谢。

terry

你不要使用抽卡，生成音色用QwenTTS，或者克隆成熟音色，VoxCPM长处不在这里。你下载个刘悦的Qwen TTS整合包抽卡就好了。

luck erwin

收到立馬下載[Qwen TTS整合包抽卡]試試謝謝指點

terry

还有问题就截图日志，贴图到这里，voxcpm我长期在用，每天都用。我没啥问题，我用的1.5

luck erwin

先跟大佬說明一下還環境奘況:
HW 筆記本 : 275HX+64GB RAM + 5090 24GB

目前是依照大佬的建議 : 先在WIN跑通流程

軟體版本是劉悅大神安裝包 :
LTX-2.3 gguf
VoxCPM 2.0

剛才跑了一個全英文的數字人排程單個排程切成5秒共計66個排程

看了結果全部66個wav檔案沒有發現聲線跑掉的問題。
會在測試 :

驗證語言與時長的關係。

因為聲線跑掉的py 執行畫面的log 暫時沒看到報錯，尚不知道原因；也請教大佬AI Model ( LTX2.3 或 VoxCPM )的debug log 你都看哪個資料夾? 或是另外在py 腳本埋入debug log?

謝謝

terry

VoxCPM 2.0不要用，用voxCPM 1.5，和我保持一致，另外你的整合包有问题，在WSL2虚拟机下安装速度会快不少，快两倍都不止。Linux下更快。因为VoxCPM需要魔搭社区的采样器，降燥，你问下Gemini，让它教你在WSL2下跑VoxCPM，这一步无法绕过。

luck erwin

好的感謝大佬分享讓我們少走彎路
感恩

luck erwin

更新實操紀錄 :

測試版本 VoxCPM 2.0

測試手法 :

測試結果 :
合併後兩分43秒的音頻，出現一次聲線跑掉(約7~8秒聲音是非自訂義聲音模型)

小結論 :
VoxCPM 2.0 可能對中文有聲線輸出不穩定的問題，縮短時常可改善，但依然會出現聲線跑掉的問題

下一步 :
依照大佬建議改成 VoxCPM 1.5 版本

terry

@luck-erwin 我没你想的那么好，我就是懒，有稳定的版本我绝不会升级，这一条很重要。

luck erwin

您真內行 XD

工程師：程式能跑就不要去動它！
工程師：程式能跑就不要去動它！
能跑就好，結果一樣

抡锤者