VoxCPM2 語音克隆 TTS 生成音色不穩定
-
@0xsltomorrow 多谢,那意义不大,我不想升级。1.5挺好的,我只做中英文,我感觉够强了,过犹不及。
@terry 對啊 我選他主要是可以本地運行廣東話TTS
而且音色不像Elevenlabs 有點機械音的感覺
用幾十分鐘的內容訓練個LoRa就連上面講會走音的問題也秒殺掉
但有些字他總是讀錯 還在研究怎樣解決 哈 -


刚刚前几天做了这个项目,我对它进行了很多的魔改,当时也遇到了克隆声音效果不好,必须把参数调得很高,那样的话渲染的时间又很长!
然后通过音色设计,抽卡一个比较靠谱的声音,记住它的种子号!然后又遇到了长文爆显存,后来就变成了分段渲染(刚好可以修改不满意的部分,而不用整段渲染),但是分段渲染,又遇到了同一个种子声音发出了不同的声音!最后想了一个办法,分段渲染时,先渲染一段相同的语句作为参考点(不显示)强制让它分段渲染的声音一致!反正这个项目折腾了很久!总算可以商用的版本! -
@terry 大神好,感谢回复,目前我这套模式还可以接受1:3的比例吧,一分钟,3分钟时间渲染!至于到其他系统里面去折腾,等我也去旁边医院里问一下我的一个肾值多少钱,是否能买下4090 48G的显卡!买了显卡我再去折腾吧!哈哈
-
請問怎樣可以 給Hermes 妹妹發聲啊? 他每次都要調用VOXCPM v2?
-
請問怎樣可以 給Hermes 妹妹發聲啊? 他每次都要調用VOXCPM v2?
@youtubevic Hermes的TTS有几条路径。
1、Hermes官方支持的接口。比如微软的本地EDGE TTS,免费,性能超好。代价就是一耳朵机器人味。
2、用第三方模型,比如楼主介绍的,或者我的方案:https://lcz.me/topic/116/hermes-tts-语音回复-discord语音频道交互-本地搭建分享-4gb显存要求
3、自己接的第三方API,可以通过skill让Hermes调用。 -
感謝幫忙介紹 。謝謝