跳转至内容
  • 版块
  • 最新
  • 标签
  • 热门
  • 用户
  • 群组
皮肤
  • 浅色
  • Brite
  • Cerulean
  • Cosmo
  • Flatly
  • Journal
  • Litera
  • Lumen
  • Lux
  • Materia
  • Minty
  • Morph
  • Pulse
  • Sandstone
  • Simplex
  • Sketchy
  • Spacelab
  • United
  • Yeti
  • Zephyr
  • 深色
  • Cyborg
  • Darkly
  • Quartz
  • Slate
  • Solar
  • Superhero
  • Vapor

  • 默认(不使用皮肤)
  • 不使用皮肤
折叠
品牌标识

抡锤者

  1. 主页
  2. AI音视频画图
  3. VoxCPM2 語音克隆 TTS 生成音色不穩定

VoxCPM2 語音克隆 TTS 生成音色不穩定

已定时 已固定 已锁定 已移动 AI音视频画图
25 帖子 7 发布者 331 浏览 1 关注中
  • 从旧到新
  • 从新到旧
  • 最多赞同
回复
  • 在新帖中回复
登录后回复
此主题已被删除。只有拥有主题管理权限的用户可以查看。
  • L 离线
    L 离线
    linax777
    编写于 最后由 编辑
    #1

    想請教一下各位大神,前幾天嘗試部署 VoxCPM2
    並使用語音克隆功能來給我的 Hermes 妹妹發聲
    提供了約一分鐘的 wav 音頻當 reference
    但是每次生成的語音音色都不太一樣,聽著很不舒服
    使用極致克隆好像有 bug 更慘,生成多次後音色都變了
    不知道大神們有沒有遇上這種狀況,又是如何解決?

    0xsltomorrow0 1 条回复 最后回复
    1
    • terryT 离线
      terryT 离线
      terry
      编写于 最后由 编辑
      #2

      我用的是1.5,2出来了?村里刚通网。

      L 1 条回复 最后回复
      0
      • terryT terry

        我用的是1.5,2出来了?村里刚通网。

        L 离线
        L 离线
        linax777
        编写于 最后由 编辑
        #3

        @terry 4月出 2版了。目前最新是2.0.2

        1 条回复 最后回复
        0
        • terryT 离线
          terryT 离线
          terry
          编写于 最后由 编辑
          #4

          1.5不挺好用的吗,我都用1.5,2有什么特殊改进吗?我抽时间试试看。

          0xsltomorrow0 1 条回复 最后回复
          0
          • terryT 离线
            terryT 离线
            terry
            编写于 最后由 编辑
            #5

            你的运行日志要贴出来,或者有截图,然后你载入了modescope采样器没?贴日志。

            1 条回复 最后回复
            0
            • L 离线
              L 离线
              linax777
              编写于 最后由 编辑
              #6

              只是用最新版。 是用 vllm 容器開啟模型 沒有詳細日誌 晚點再研究

              SCR-20260505-mctb.png

              1 条回复 最后回复
              1
              • terryT terry

                1.5不挺好用的吗,我都用1.5,2有什么特殊改进吗?我抽时间试试看。

                0xsltomorrow0 离线
                0xsltomorrow0 离线
                0xsltomorrow
                编写于 最后由 编辑
                #7

                @terry 2.0 可以抽卡設計音色 但不一定抽到好卡
                另外增加了日語、韓語及多種方言支援 (其他方言我不懂,但日、韓、粵語聽起來都是怪怪的)

                terryT 1 条回复 最后回复
                0
                • L linax777

                  想請教一下各位大神,前幾天嘗試部署 VoxCPM2
                  並使用語音克隆功能來給我的 Hermes 妹妹發聲
                  提供了約一分鐘的 wav 音頻當 reference
                  但是每次生成的語音音色都不太一樣,聽著很不舒服
                  使用極致克隆好像有 bug 更慘,生成多次後音色都變了
                  不知道大神們有沒有遇上這種狀況,又是如何解決?

                  0xsltomorrow0 离线
                  0xsltomorrow0 离线
                  0xsltomorrow
                  编写于 最后由 编辑
                  #8

                  @linax777 請問你 Ultimate Clone 一段話時間大概多長?
                  我用粵語的 沒加載LoRa情況下每句不能超過10秒
                  10秒開始他就變成一種新的方言了

                  L 1 条回复 最后回复
                  0
                  • terryT 离线
                    terryT 离线
                    terry
                    编写于 最后由 编辑
                    #9

                    它可以克隆音色,然后你用工具微调下,再克隆,干嘛要抽卡呢?voxcpm可以直接运行你知道吗?直接用python脚本调用,别说几十秒,我的视频都是七八分钟,十几分钟的。脚本一步到位🤪

                    1 条回复 最后回复
                    1
                    • 0xsltomorrow0 0xsltomorrow

                      @linax777 請問你 Ultimate Clone 一段話時間大概多長?
                      我用粵語的 沒加載LoRa情況下每句不能超過10秒
                      10秒開始他就變成一種新的方言了

                      L 离线
                      L 离线
                      linax777
                      编写于 最后由 编辑
                      #10

                      @0xsltomorrow Ultimate Clone 沒試過太多次
                      使用 HTTP API 調用 生成幾次之後就變成隨機音色 女聲變男聲
                      再試幾天沒有改善可能要換成使用 Qwen3-TTS

                      terryT 1 条回复 最后回复
                      0
                      • L linax777

                        @0xsltomorrow Ultimate Clone 沒試過太多次
                        使用 HTTP API 調用 生成幾次之後就變成隨機音色 女聲變男聲
                        再試幾天沒有改善可能要換成使用 Qwen3-TTS

                        terryT 离线
                        terryT 离线
                        terry
                        编写于 最后由 编辑
                        #11

                        @linax777 voxcpm是流式API,你可以分段的,音频可以用ffpmeg代码修理,qwen TTS 在克隆方面远不如voxcpm,它的优势是多音色。

                        1 条回复 最后回复
                        0
                        • t68823878T 离线
                          t68823878T 离线
                          t68823878
                          编写于 最后由 编辑
                          #12

                          我是才开始接触AI音视频,综合对比了一下,我用的刘悦大神的QWEN TTS 1.7B文字转语音整合包,除了长篇幅几千字会出现吞字外,感觉音频质量还是在线的。而且你是不是参考语音片段太长了,都1分钟了,一般不都是10秒左右吗?

                          terryT 1 条回复 最后回复
                          0
                          • t68823878T t68823878

                            我是才开始接触AI音视频,综合对比了一下,我用的刘悦大神的QWEN TTS 1.7B文字转语音整合包,除了长篇幅几千字会出现吞字外,感觉音频质量还是在线的。而且你是不是参考语音片段太长了,都1分钟了,一般不都是10秒左右吗?

                            terryT 离线
                            terryT 离线
                            terry
                            编写于 最后由 编辑
                            #13

                            @t68823878 刘悦的包好不好用,我下载了,没怎么测试,主要是voxcpm太好用了,发个帖子分享下啊,付出一点。

                            t68823878T 1 条回复 最后回复
                            0
                            • 0xsltomorrow0 0xsltomorrow

                              @terry 2.0 可以抽卡設計音色 但不一定抽到好卡
                              另外增加了日語、韓語及多種方言支援 (其他方言我不懂,但日、韓、粵語聽起來都是怪怪的)

                              terryT 离线
                              terryT 离线
                              terry
                              编写于 最后由 编辑
                              #14

                              @0xsltomorrow 多谢,那意义不大,我不想升级。1.5挺好的,我只做中英文,我感觉够强了,过犹不及。

                              0xsltomorrow0 1 条回复 最后回复
                              0
                              • terryT terry

                                @t68823878 刘悦的包好不好用,我下载了,没怎么测试,主要是voxcpm太好用了,发个帖子分享下啊,付出一点。

                                t68823878T 离线
                                t68823878T 离线
                                t68823878
                                编写于 最后由 编辑
                                #15

                                @terry 就是挺简单根据刘悦那个视频教程来就行了,https://www.youtube.com/watch?v=HUPxh1sCDpA
                                主要优势就是声音比较自然,AI味不明显,用来设计音色也是很不错的,我弄的语音音色就是用它抽卡抽出来的;
                                当然我也试了用comfyui工作流来QWEN3 TTS,出来的效果比不上整合包,具体原因我也没有深入研究,整合包出来效果就是要好很多。

                                terryT 1 条回复 最后回复
                                0
                                • t68823878T t68823878

                                  @terry 就是挺简单根据刘悦那个视频教程来就行了,https://www.youtube.com/watch?v=HUPxh1sCDpA
                                  主要优势就是声音比较自然,AI味不明显,用来设计音色也是很不错的,我弄的语音音色就是用它抽卡抽出来的;
                                  当然我也试了用comfyui工作流来QWEN3 TTS,出来的效果比不上整合包,具体原因我也没有深入研究,整合包出来效果就是要好很多。

                                  terryT 离线
                                  terryT 离线
                                  terry
                                  编写于 最后由 编辑
                                  #16

                                  @t68823878 不要用comfyui部署,直接在linux下就可以部署Qwen TTS, 改天我测试下,上次我记得跑过整合包,稍微体验了下。过几天试试看。

                                  1 条回复 最后回复
                                  0
                                  • terryT terry

                                    @0xsltomorrow 多谢,那意义不大,我不想升级。1.5挺好的,我只做中英文,我感觉够强了,过犹不及。

                                    0xsltomorrow0 离线
                                    0xsltomorrow0 离线
                                    0xsltomorrow
                                    编写于 最后由 编辑
                                    #17

                                    @terry 對啊 我選他主要是可以本地運行廣東話TTS
                                    而且音色不像Elevenlabs 有點機械音的感覺
                                    用幾十分鐘的內容訓練個LoRa就連上面講會走音的問題也秒殺掉
                                    但有些字他總是讀錯 還在研究怎樣解決 哈

                                    1 条回复 最后回复
                                    1
                                    • 张老师张 离线
                                      张老师张 离线
                                      张老师
                                      编写于 最后由 编辑
                                      #18

                                      e480ef84-2116-4dd5-a373-667a283a1ad3-image.jpeg
                                      c892e235-3ff2-438b-adea-a38b39db3871-image.jpeg
                                      刚刚前几天做了这个项目,我对它进行了很多的魔改,当时也遇到了克隆声音效果不好,必须把参数调得很高,那样的话渲染的时间又很长!
                                      然后通过音色设计,抽卡一个比较靠谱的声音,记住它的种子号!然后又遇到了长文爆显存,后来就变成了分段渲染(刚好可以修改不满意的部分,而不用整段渲染),但是分段渲染,又遇到了同一个种子声音发出了不同的声音!最后想了一个办法,分段渲染时,先渲染一段相同的语句作为参考点(不显示)强制让它分段渲染的声音一致!反正这个项目折腾了很久!总算可以商用的版本!

                                      terryT 1 条回复 最后回复
                                      1
                                      • 张老师张 张老师

                                        e480ef84-2116-4dd5-a373-667a283a1ad3-image.jpeg
                                        c892e235-3ff2-438b-adea-a38b39db3871-image.jpeg
                                        刚刚前几天做了这个项目,我对它进行了很多的魔改,当时也遇到了克隆声音效果不好,必须把参数调得很高,那样的话渲染的时间又很长!
                                        然后通过音色设计,抽卡一个比较靠谱的声音,记住它的种子号!然后又遇到了长文爆显存,后来就变成了分段渲染(刚好可以修改不满意的部分,而不用整段渲染),但是分段渲染,又遇到了同一个种子声音发出了不同的声音!最后想了一个办法,分段渲染时,先渲染一段相同的语句作为参考点(不显示)强制让它分段渲染的声音一致!反正这个项目折腾了很久!总算可以商用的版本!

                                        terryT 离线
                                        terryT 离线
                                        terry
                                        编写于 最后由 编辑
                                        #19

                                        @张老师 你试试看Linux,wsl2都比它快很多,我4090能跑到50t/s,xtx 20t/s,你看看你的日志对比下就知道了,voxcpm的win整合包一般速读哦堵很慢。

                                        张老师张 1 条回复 最后回复
                                        0
                                        • terryT terry

                                          @张老师 你试试看Linux,wsl2都比它快很多,我4090能跑到50t/s,xtx 20t/s,你看看你的日志对比下就知道了,voxcpm的win整合包一般速读哦堵很慢。

                                          张老师张 离线
                                          张老师张 离线
                                          张老师
                                          编写于 最后由 张老师 编辑
                                          #20

                                          @terry 大神好,感谢回复,目前我这套模式还可以接受1:3的比例吧,一分钟,3分钟时间渲染!至于到其他系统里面去折腾,等我也去旁边医院里问一下我的一个肾值多少钱,是否能买下4090 48G的显卡!买了显卡我再去折腾吧!哈哈

                                          terryT 1 条回复 最后回复
                                          0

                                          你好!看起来您对这段对话很感兴趣,但您还没有一个账号。

                                          厌倦了每次访问都刷到同样的帖子?您注册账号后,您每次返回时都能精准定位到您上次浏览的位置,并可选择接收新回复通知(通过邮件或推送通知)。您还能收藏书签、为帖子顶,向社区成员表达您的欣赏。

                                          有了你的建议,这篇帖子会更精彩哦 💗

                                          注册 登录
                                          回复
                                          • 在新帖中回复
                                          登录后回复
                                          • 从旧到新
                                          • 从新到旧
                                          • 最多赞同


                                          • 登录

                                          • 没有帐号? 注册

                                          • 登录或注册以进行搜索。
                                          • 第一个帖子
                                            最后一个帖子
                                          0
                                          • 版块
                                          • 最新
                                          • 标签
                                          • 热门
                                          • 用户
                                          • 群组