跳转至内容
  • 版块
  • 最新
  • 标签
  • 热门
  • 用户
  • 群组
皮肤
  • 浅色
  • Brite
  • Cerulean
  • Cosmo
  • Flatly
  • Journal
  • Litera
  • Lumen
  • Lux
  • Materia
  • Minty
  • Morph
  • Pulse
  • Sandstone
  • Simplex
  • Sketchy
  • Spacelab
  • United
  • Yeti
  • Zephyr
  • 深色
  • Cyborg
  • Darkly
  • Quartz
  • Slate
  • Solar
  • Superhero
  • Vapor

  • 默认(不使用皮肤)
  • 不使用皮肤
折叠
品牌标识

抡锤者

  1. 主页
  2. AI音视频画图
  3. Voxcpm 关于 tag 的一点心得 (LTX2.3 LIP Syn + Voxcpm)

Voxcpm 关于 tag 的一点心得 (LTX2.3 LIP Syn + Voxcpm)

已定时 已固定 已锁定 已移动 AI音视频画图
6 帖子 4 发布者 172 浏览 1 关注中
  • 从旧到新
  • 从新到旧
  • 最多赞同
回复
  • 在新帖中回复
登录后回复
此主题已被删除。只有拥有主题管理权限的用户可以查看。
  • imbiplaza ASUSI 离线
    imbiplaza ASUSI 离线
    imbiplaza ASUS
    技术大牛 劳动模范
    编写于 最后由 imbiplaza ASUS 编辑
    #1

    前文:

    基本上现在我玩ai 创作视频,都会利用我惯用的四件套, 加上LTX2.3 Lip Syn :

    1 audacity mp4 转mp3 剪辑声音,浑声,为什么用这个:主要是秒开,秒输出,不用等。。。

    https://www.audacityteam.org/download/


    2 yt2mkv_tools 抽出极度干净的人声 vocal , 原本这个py 是用来自作karaoke 的,用他的原因:也是秒开,秒输出

    yt2mkv_tools.py 记得save as 下载,把json 改成zip

    Screenshot 2026-06-21 090644.png


    3 SoulX-Singer 克隆某人物的声音,合成去别人里的视频讲话,或者mtv, 他会自动按照别人视频的声音时间帧,插入我要的人物声音,比如:孙燕姿唱郭富城的对你爱不完

    https://github.com/Soul-AILab/SoulX-Singer

    Screenshot 2026-06-21 101719.png


    4 VoxCPM 克隆某人物的声音,按照剧本发出声音

    https://github.com/OpenBMB/VoxCPM

    Screenshot 2026-06-22 121214.png


    5 LTX2.3 Lip Syn
    video_ltx2_3_ia2v_imbi.json


    开始

    我先拿江湖大哥驹爷来作为示范,为什么:因为我想研究江湖的讲话那种方式

    先去youtube 下载驹爷的原声 (提醒需要拿到那种真正江湖语气的原声,如果是念稿的声音,就算clone出来需要处理的问题太多。。。)

    然后去gemini prompt:

    我现在有一段对白,我想模仿黑社会大哥大的语调
    我要直接放進 VOXCPM 跑 AI 語音,
    请加上合适的tag, 
    请推荐合适的Control Instruction
    

    经过超过几十次的 tag 调换,终于找到一个比较接近的江湖语调,看我的示范:

    Control Instruction

    粤语,中年男子,暴躁愤怒的中年男声,语速快,Control: speed=0.88, pitch=0.93,dynamic_range=high, CRITICAL: Do NOT read aloud any text inside brackets or tags like [sigh], [gasp], or [laugh]. Treat them purely as non-verbal physical actions, emotional tones, and breathing cues.
    

    Target Text

    [laughter_giggle] 江湖總係問:我巔峰嗰陣到底有幾勁?
    唔使睇我贏過幾多仗,[speed_up] 去問吓嗰三個食過亏嘅人!
    [Deep pitch]刀文龙,被我從貴賓廳打到公海,記了我足足二十五年!
    [High-pitched]雙英青,帶隊過海被我用重武器轟返香港,只留低一句「好彩走得快」! 
    [Deep pitch]還有雞腳黑,在灣仔堵我,反被我當眾暴打,在碼頭只能聽我講「sa yo na ra」!
    [Gravelly]  呢三位夠響当当吧?
    但喺 1996 年嘅澳門,我講一,冇人敢講二!
    [Robust]我講打,就一定要有人仆街! 
    [chuckle] 不過,[Smooth]而家嘅我,喺抖音做網紅跳舞呀。 
    [laughter_giggle] [laughter_giggle]點評論區,睇我點樣將洪門文化變成流量密碼啦! 
    

    在这里的技巧我使用了 tag, 其实我也不知道用得对不对,反正可以一直试:

    VoxCPM 并不像传统 TTS 那样使用硬编码的离散语言标签,
    而是采用了无分词器(Tokenizer-Free)与提示词驱动的设计。
    控制音色、情绪、语速和风格的标签(Tags)统称为 Style Control,
    它们直接以自然语言(中英文皆可)写在文本前方的圆括号 ( ) 内。
    以下是 VoxCPM 2.0 推荐及支持的风格和音色控制标签列表:

    1. 情绪与风格标签(Emotion & Style)用于控制语气和情感,可以自由组合使用:

    • cheerful / happy / joyful(欢快、高兴)
    • sad(悲伤)
    • angry(愤怒)
    • gentle(温柔)
    • excited(激动、兴奋)
    • calm / peaceful(平静)
    • depressed / sorrowful(忧郁)
    • serious(严肃)fearful(害怕)

    2. 节奏与语速标签(Pace)用于控制说话的速度或节奏:

    • slightly faster(语速稍快)
    • slower(语速慢)
    • soft / whispering(轻声)
    • loud / energetic(响亮、有活力)

    3. 音色设计标签(Voice Design / Timbre)用于全新创造一个声音(Voice Design 模式),无需参考音频:

    • 性别与年龄:A young woman(年轻女性)、An old man(老年男性)、A little girl(小女孩)、Middle-aged male(中年男性)

    • 声线质感:gentle and sweet voice(温柔甜美的声音)、deep and resonant(低沉浑厚)、clear and crisp(清脆)

    4. 非语言标签(Non-linguistic Tags)用于模拟更逼真的口语化表达,点到为止即可:

    • [laugh](笑声)
    • [sigh](叹气)
    • [breath](喘气、呼吸)

    效果1 没有加上特别tag, 出来效果好像念稿
    https://www.youtube.com/watch?v=pHhmnsMutzw

    效果2 没有加上特别tag, 出来效果好像念稿
    https://www.youtube.com/watch?v=4zr0-on-vK0

    效果3 加上特别tag, 出来效果比较接近
    https://www.youtube.com/watch?v=HP62C0DvETM

    1 条回复 最后回复
    4
    • ,terryT terry 固定了此主题
    • terryT 在线
      terryT 在线
      terry
      超级版主
      编写于 最后由 编辑
      #2

      非常好,新人可以理解下做应用,我觉得做短视频比较有前景,这玩意要标注AI,容易被平台打击。

      油管:https://www.youtube.com/@抡锤者

      1 条回复 最后回复
      0
      • Q mariaQ 离线
        Q mariaQ 离线
        Q maria
        德高望重 劳动模范
        编写于 最后由 编辑
        #3

        我下载的也是voxcpm2 但我看有的人的界面不是这种。。这个控制不了seed 我用提示词随机生成一个声音觉得满意之后 我应该如何让他保持这个音色呢?

        imbiplaza ASUSI 1 条回复 最后回复
        0
        • Q mariaQ Q maria

          我下载的也是voxcpm2 但我看有的人的界面不是这种。。这个控制不了seed 我用提示词随机生成一个声音觉得满意之后 我应该如何让他保持这个音色呢?

          imbiplaza ASUSI 离线
          imbiplaza ASUSI 离线
          imbiplaza ASUS
          技术大牛 劳动模范
          编写于 最后由 编辑
          #4

          @Q-maria 他们应该使用codex 改成py gui 的,你试一试,跟codex说,把seed 放出来

          Q mariaQ 1 条回复 最后回复
          0
          • imbiplaza ASUSI imbiplaza ASUS

            @Q-maria 他们应该使用codex 改成py gui 的,你试一试,跟codex说,把seed 放出来

            Q mariaQ 离线
            Q mariaQ 离线
            Q maria
            德高望重 劳动模范
            编写于 最后由 编辑
            #5

            @imbiplaza-ASUS 好的 我试试。

            1 条回复 最后回复
            0
            • ,系统 取消固定了此主题
            • E 离线
              E 离线
              Enigma
              编写于 最后由 编辑
              #6
              此主題已被删除!
              1 条回复 最后回复
              0

              你好!看起来您对这段对话很感兴趣,但您还没有一个账号。

              厌倦了每次访问都刷到同样的帖子?您注册账号后,您每次返回时都能精准定位到您上次浏览的位置,并可选择接收新回复通知(通过邮件或推送通知)。您还能收藏书签、为帖子顶,向社区成员表达您的欣赏。

              有了你的建议,这篇帖子会更精彩哦 💗

              注册 登录
              回复
              • 在新帖中回复
              登录后回复
              • 从旧到新
              • 从新到旧
              • 最多赞同


              • 登录

              • 没有帐号? 注册

              • 第一个帖子
                最后一个帖子
              0
              • 版块
              • 最新
              • 标签
              • 热门
              • 用户
              • 群组