Voxcpm 关于 tag 的一点心得 (LTX2.3 LIP Syn + Voxcpm)
-
前文:
基本上现在我玩ai 创作视频,都会利用我惯用的四件套, 加上LTX2.3 Lip Syn :
1 audacity mp4 转mp3 剪辑声音,浑声,为什么用这个:主要是秒开,秒输出,不用等。。。
https://www.audacityteam.org/download/
2 yt2mkv_tools 抽出极度干净的人声 vocal , 原本这个py 是用来自作karaoke 的,用他的原因:也是秒开,秒输出
yt2mkv_tools.py 记得save as 下载,把json 改成zip

3 SoulX-Singer 克隆某人物的声音,合成去别人里的视频讲话,或者mtv, 他会自动按照别人视频的声音时间帧,插入我要的人物声音,比如:孙燕姿唱郭富城的对你爱不完
https://github.com/Soul-AILab/SoulX-Singer

4 VoxCPM 克隆某人物的声音,按照剧本发出声音
https://github.com/OpenBMB/VoxCPM

5 LTX2.3 Lip Syn
video_ltx2_3_ia2v_imbi.json
开始
我先拿江湖大哥驹爷来作为示范,为什么:因为我想研究江湖的讲话那种方式
先去youtube 下载驹爷的原声 (提醒需要拿到那种真正江湖语气的原声,如果是念稿的声音,就算clone出来需要处理的问题太多。。。)
然后去gemini prompt:
我现在有一段对白,我想模仿黑社会大哥大的语调 我要直接放進 VOXCPM 跑 AI 語音, 请加上合适的tag, 请推荐合适的Control Instruction经过超过几十次的 tag 调换,终于找到一个比较接近的江湖语调,看我的示范:
Control Instruction
粤语,中年男子,暴躁愤怒的中年男声,语速快,Control: speed=0.88, pitch=0.93,dynamic_range=high, CRITICAL: Do NOT read aloud any text inside brackets or tags like [sigh], [gasp], or [laugh]. Treat them purely as non-verbal physical actions, emotional tones, and breathing cues.Target Text
[laughter_giggle] 江湖總係問:我巔峰嗰陣到底有幾勁? 唔使睇我贏過幾多仗,[speed_up] 去問吓嗰三個食過亏嘅人! [Deep pitch]刀文龙,被我從貴賓廳打到公海,記了我足足二十五年! [High-pitched]雙英青,帶隊過海被我用重武器轟返香港,只留低一句「好彩走得快」! [Deep pitch]還有雞腳黑,在灣仔堵我,反被我當眾暴打,在碼頭只能聽我講「sa yo na ra」! [Gravelly] 呢三位夠響当当吧? 但喺 1996 年嘅澳門,我講一,冇人敢講二! [Robust]我講打,就一定要有人仆街! [chuckle] 不過,[Smooth]而家嘅我,喺抖音做網紅跳舞呀。 [laughter_giggle] [laughter_giggle]點評論區,睇我點樣將洪門文化變成流量密碼啦!在这里的技巧我使用了 tag, 其实我也不知道用得对不对,反正可以一直试:
VoxCPM 并不像传统 TTS 那样使用硬编码的离散语言标签,
而是采用了无分词器(Tokenizer-Free)与提示词驱动的设计。
控制音色、情绪、语速和风格的标签(Tags)统称为 Style Control,
它们直接以自然语言(中英文皆可)写在文本前方的圆括号 ( ) 内。
以下是 VoxCPM 2.0 推荐及支持的风格和音色控制标签列表:1. 情绪与风格标签(Emotion & Style)用于控制语气和情感,可以自由组合使用:
- cheerful / happy / joyful(欢快、高兴)
- sad(悲伤)
- angry(愤怒)
- gentle(温柔)
- excited(激动、兴奋)
- calm / peaceful(平静)
- depressed / sorrowful(忧郁)
- serious(严肃)fearful(害怕)
2. 节奏与语速标签(Pace)用于控制说话的速度或节奏:
- slightly faster(语速稍快)
- slower(语速慢)
- soft / whispering(轻声)
- loud / energetic(响亮、有活力)
3. 音色设计标签(Voice Design / Timbre)用于全新创造一个声音(Voice Design 模式),无需参考音频:
-
性别与年龄:A young woman(年轻女性)、An old man(老年男性)、A little girl(小女孩)、Middle-aged male(中年男性)
-
声线质感:gentle and sweet voice(温柔甜美的声音)、deep and resonant(低沉浑厚)、clear and crisp(清脆)
4. 非语言标签(Non-linguistic Tags)用于模拟更逼真的口语化表达,点到为止即可:
- [laugh](笑声)
- [sigh](叹气)
- [breath](喘气、呼吸)
效果1 没有加上特别tag, 出来效果好像念稿
https://www.youtube.com/watch?v=pHhmnsMutzw效果2 没有加上特别tag, 出来效果好像念稿
https://www.youtube.com/watch?v=4zr0-on-vK0效果3 加上特别tag, 出来效果比较接近
https://www.youtube.com/watch?v=HP62C0DvETM -
,
T terry 固定了此主题
-
@Q-maria 他们应该使用codex 改成py gui 的,你试一试,跟codex说,把seed 放出来
-
,系统 取消固定了此主题