跳转至内容
  • 版块
  • 最新
  • 标签
  • 热门
  • 用户
  • 群组
皮肤
  • 浅色
  • Brite
  • Cerulean
  • Cosmo
  • Flatly
  • Journal
  • Litera
  • Lumen
  • Lux
  • Materia
  • Minty
  • Morph
  • Pulse
  • Sandstone
  • Simplex
  • Sketchy
  • Spacelab
  • United
  • Yeti
  • Zephyr
  • 深色
  • Cyborg
  • Darkly
  • Quartz
  • Slate
  • Solar
  • Superhero
  • Vapor

  • 默认(不使用皮肤)
  • 不使用皮肤
折叠
品牌标识

抡锤者

  1. 主页
  2. AI音视频画图
  3. VoxCPM2 語音克隆 TTS 生成音色不穩定

VoxCPM2 語音克隆 TTS 生成音色不穩定

已定时 已固定 已锁定 已移动 AI音视频画图
28 帖子 9 发布者 551 浏览 1 关注中
  • 从旧到新
  • 从新到旧
  • 最多赞同
回复
  • 在新帖中回复
登录后回复
此主题已被删除。只有拥有主题管理权限的用户可以查看。
  • 张老师张 离线
    张老师张 离线
    张老师
    写于 最后由 编辑
    #18

    e480ef84-2116-4dd5-a373-667a283a1ad3-image.jpeg
    c892e235-3ff2-438b-adea-a38b39db3871-image.jpeg
    刚刚前几天做了这个项目,我对它进行了很多的魔改,当时也遇到了克隆声音效果不好,必须把参数调得很高,那样的话渲染的时间又很长!
    然后通过音色设计,抽卡一个比较靠谱的声音,记住它的种子号!然后又遇到了长文爆显存,后来就变成了分段渲染(刚好可以修改不满意的部分,而不用整段渲染),但是分段渲染,又遇到了同一个种子声音发出了不同的声音!最后想了一个办法,分段渲染时,先渲染一段相同的语句作为参考点(不显示)强制让它分段渲染的声音一致!反正这个项目折腾了很久!总算可以商用的版本!

    terryT 1 条回复 最后回复
    1
    • 张老师张 张老师

      e480ef84-2116-4dd5-a373-667a283a1ad3-image.jpeg
      c892e235-3ff2-438b-adea-a38b39db3871-image.jpeg
      刚刚前几天做了这个项目,我对它进行了很多的魔改,当时也遇到了克隆声音效果不好,必须把参数调得很高,那样的话渲染的时间又很长!
      然后通过音色设计,抽卡一个比较靠谱的声音,记住它的种子号!然后又遇到了长文爆显存,后来就变成了分段渲染(刚好可以修改不满意的部分,而不用整段渲染),但是分段渲染,又遇到了同一个种子声音发出了不同的声音!最后想了一个办法,分段渲染时,先渲染一段相同的语句作为参考点(不显示)强制让它分段渲染的声音一致!反正这个项目折腾了很久!总算可以商用的版本!

      terryT 离线
      terryT 离线
      terry
      超级版主
      写于 最后由 编辑
      #19

      @张老师 你试试看Linux,wsl2都比它快很多,我4090能跑到50t/s,xtx 20t/s,你看看你的日志对比下就知道了,voxcpm的win整合包一般速读哦堵很慢。

      油管:https://www.youtube.com/@抡锤者

      张老师张 1 条回复 最后回复
      0
      • terryT terry

        @张老师 你试试看Linux,wsl2都比它快很多,我4090能跑到50t/s,xtx 20t/s,你看看你的日志对比下就知道了,voxcpm的win整合包一般速读哦堵很慢。

        张老师张 离线
        张老师张 离线
        张老师
        写于 最后由 张老师 编辑
        #20

        @terry 大神好,感谢回复,目前我这套模式还可以接受1:3的比例吧,一分钟,3分钟时间渲染!至于到其他系统里面去折腾,等我也去旁边医院里问一下我的一个肾值多少钱,是否能买下4090 48G的显卡!买了显卡我再去折腾吧!哈哈

        terryT 1 条回复 最后回复
        0
        • 张老师张 张老师

          @terry 大神好,感谢回复,目前我这套模式还可以接受1:3的比例吧,一分钟,3分钟时间渲染!至于到其他系统里面去折腾,等我也去旁边医院里问一下我的一个肾值多少钱,是否能买下4090 48G的显卡!买了显卡我再去折腾吧!哈哈

          terryT 离线
          terryT 离线
          terry
          超级版主
          写于 最后由 编辑
          #21

          @张老师 那挺慢的,你换Linux就能快点。不需要卖肾。

          油管:https://www.youtube.com/@抡锤者

          张老师张 1 条回复 最后回复
          0
          • terryT terry

            @张老师 那挺慢的,你换Linux就能快点。不需要卖肾。

            张老师张 离线
            张老师张 离线
            张老师
            写于 最后由 编辑
            #22

            @terry 说:

            不需要卖肾。

            哈哈,学你视频里幽默的方式,好的,我有空了去搞个洋垃圾组合也试试Ubuntu 服务器吧!到时候过来分享哦

            terryT 1 条回复 最后回复
            0
            • 张老师张 张老师

              @terry 说:

              不需要卖肾。

              哈哈,学你视频里幽默的方式,好的,我有空了去搞个洋垃圾组合也试试Ubuntu 服务器吧!到时候过来分享哦

              terryT 离线
              terryT 离线
              terry
              超级版主
              写于 最后由 编辑
              #23

              @张老师 主力工作机器不要和AI部署机器放到一起是对的,你就给显卡配置个洋垃圾,让它独立运行,使劲造,坏了就重装。思路是对的。

              油管:https://www.youtube.com/@抡锤者

              1 条回复 最后回复
              1
              • Z 离线
                Z 离线
                zeroxin
                写于 最后由 编辑
                #24

                我所有的电脑都是洋垃圾E5平台,一台是5070TI 128G内存,一台3060 12G+64内存,一台2070 8G+32G内存,前两台跑龙虾+comfyui ,第三台只能办公了

                1 条回复 最后回复
                1
                • W 离线
                  W 离线
                  weidong
                  写于 最后由 编辑
                  #25

                  我觉得indextts挺好用的,在苹果下生成速度还过得去

                  1 条回复 最后回复
                  0
                  • Y 离线
                    Y 离线
                    youtubevic
                    编写于 最后由 编辑
                    #26

                    請問怎樣可以 給Hermes 妹妹發聲啊? 他每次都要調用VOXCPM v2?

                    kop wangK 1 条回复 最后回复
                    0
                    • Y youtubevic

                      請問怎樣可以 給Hermes 妹妹發聲啊? 他每次都要調用VOXCPM v2?

                      kop wangK 在线
                      kop wangK 在线
                      kop wang
                      超级版主
                      编写于 最后由 编辑
                      #27

                      @youtubevic Hermes的TTS有几条路径。
                      1、Hermes官方支持的接口。比如微软的本地EDGE TTS,免费,性能超好。代价就是一耳朵机器人味。
                      2、用第三方模型,比如楼主介绍的,或者我的方案:https://lcz.me/topic/116/hermes-tts-语音回复-discord语音频道交互-本地搭建分享-4gb显存要求
                      3、自己接的第三方API,可以通过skill让Hermes调用。

                      虚心交流,一起进步

                      1 条回复 最后回复
                      0
                      • Y 离线
                        Y 离线
                        youtubevic
                        编写于 最后由 编辑
                        #28

                        感謝幫忙介紹 。謝謝

                        1 条回复 最后回复
                        0

                        你好!看起来您对这段对话很感兴趣,但您还没有一个账号。

                        厌倦了每次访问都刷到同样的帖子?您注册账号后,您每次返回时都能精准定位到您上次浏览的位置,并可选择接收新回复通知(通过邮件或推送通知)。您还能收藏书签、为帖子顶,向社区成员表达您的欣赏。

                        有了你的建议,这篇帖子会更精彩哦 💗

                        注册 登录
                        回复
                        • 在新帖中回复
                        登录后回复
                        • 从旧到新
                        • 从新到旧
                        • 最多赞同


                        • 登录

                        • 没有帐号? 注册

                        • 登录或注册以进行搜索。
                        • 第一个帖子
                          最后一个帖子
                        0
                        • 版块
                        • 最新
                        • 标签
                        • 热门
                        • 用户
                        • 群组