Voxcpm 关于 tag 的一点心得 (LTX2.3 LIP Syn + Voxcpm)

imbiplaza ASUS

前文：

基本上现在我玩ai 创作视频，都会利用我惯用的四件套，加上LTX2.3 Lip Syn ：

1 audacity mp4 转mp3 剪辑声音，浑声，为什么用这个：主要是秒开，秒输出，不用等。。。

https://www.audacityteam.org/download/

2 yt2mkv_tools 抽出极度干净的人声 vocal ，原本这个py 是用来自作karaoke 的，用他的原因：也是秒开，秒输出

yt2mkv_tools.py 记得save as 下载，把json 改成zip

Screenshot 2026-06-21 090644.png

3 SoulX-Singer 克隆某人物的声音，合成去别人里的视频讲话，或者mtv, 他会自动按照别人视频的声音时间帧，插入我要的人物声音，比如：孙燕姿唱郭富城的对你爱不完

https://github.com/Soul-AILab/SoulX-Singer

Screenshot 2026-06-21 101719.png

4 VoxCPM 克隆某人物的声音，按照剧本发出声音

https://github.com/OpenBMB/VoxCPM

Screenshot 2026-06-22 121214.png

5 LTX2.3 Lip Syn
video_ltx2_3_ia2v_imbi.json

开始

我先拿江湖大哥驹爷来作为示范，为什么：因为我想研究江湖的讲话那种方式

先去youtube 下载驹爷的原声（提醒需要拿到那种真正江湖语气的原声，如果是念稿的声音，就算clone出来需要处理的问题太多。。。）

然后去gemini prompt:

我现在有一段对白，我想模仿黑社会大哥大的语调
我要直接放進 VOXCPM 跑 AI 語音，
请加上合适的tag, 
请推荐合适的Control Instruction

经过超过几十次的 tag 调换，终于找到一个比较接近的江湖语调，看我的示范：

Control Instruction

粤语，中年男子，暴躁愤怒的中年男声，语速快，Control: speed=0.88, pitch=0.93,dynamic_range=high, CRITICAL: Do NOT read aloud any text inside brackets or tags like [sigh], [gasp], or [laugh]. Treat them purely as non-verbal physical actions, emotional tones, and breathing cues.

Target Text

[laughter_giggle] 江湖總係問：我巔峰嗰陣到底有幾勁？
唔使睇我贏過幾多仗，[speed_up] 去問吓嗰三個食過亏嘅人！
[Deep pitch]刀文龙，被我從貴賓廳打到公海，記了我足足二十五年！
[High-pitched]雙英青，帶隊過海被我用重武器轟返香港，只留低一句「好彩走得快」！ 
[Deep pitch]還有雞腳黑，在灣仔堵我，反被我當眾暴打，在碼頭只能聽我講「sa yo na ra」！
[Gravelly]  呢三位夠響当当吧？
但喺 1996 年嘅澳門，我講一，冇人敢講二！
[Robust]我講打，就一定要有人仆街！ 
[chuckle] 不過，[Smooth]而家嘅我，喺抖音做網紅跳舞呀。 
[laughter_giggle] [laughter_giggle]點評論區，睇我點樣將洪門文化變成流量密碼啦！

在这里的技巧我使用了 tag, 其实我也不知道用得对不对，反正可以一直试:

VoxCPM 并不像传统 TTS 那样使用硬编码的离散语言标签，
而是采用了无分词器（Tokenizer-Free）与提示词驱动的设计。
控制音色、情绪、语速和风格的标签（Tags）统称为 Style Control，
它们直接以自然语言（中英文皆可）写在文本前方的圆括号 ( ) 内。
以下是 VoxCPM 2.0 推荐及支持的风格和音色控制标签列表：

1. 情绪与风格标签（Emotion & Style）用于控制语气和情感，可以自由组合使用：

cheerful / happy / joyful（欢快、高兴）
sad（悲伤）
angry（愤怒）
gentle（温柔）
excited（激动、兴奋）
calm / peaceful（平静）
depressed / sorrowful（忧郁）
serious（严肃）fearful（害怕）

2. 节奏与语速标签（Pace）用于控制说话的速度或节奏：

slightly faster（语速稍快）
slower（语速慢）
soft / whispering（轻声）
loud / energetic（响亮、有活力）

3. 音色设计标签（Voice Design / Timbre）用于全新创造一个声音（Voice Design 模式），无需参考音频：

性别与年龄：A young woman（年轻女性）、An old man（老年男性）、A little girl（小女孩）、Middle-aged male（中年男性）
声线质感：gentle and sweet voice（温柔甜美的声音）、deep and resonant（低沉浑厚）、clear and crisp（清脆）

4. 非语言标签（Non-linguistic Tags）用于模拟更逼真的口语化表达，点到为止即可：

[laugh]（笑声）
[sigh]（叹气）
[breath]（喘气、呼吸）

效果1 没有加上特别tag, 出来效果好像念稿
https://www.youtube.com/watch?v=pHhmnsMutzw

效果2 没有加上特别tag, 出来效果好像念稿
https://www.youtube.com/watch?v=4zr0-on-vK0

效果3 加上特别tag, 出来效果比较接近
https://www.youtube.com/watch?v=HP62C0DvETM

terry

非常好，新人可以理解下做应用，我觉得做短视频比较有前景，这玩意要标注AI，容易被平台打击。

Q maria

我下载的也是voxcpm2 但我看有的人的界面不是这种。。这个控制不了seed 我用提示词随机生成一个声音觉得满意之后我应该如何让他保持这个音色呢？

imbiplaza ASUS

@Q-maria 他们应该使用codex 改成py gui 的，你试一试，跟codex说，把seed 放出来

Q maria

@imbiplaza-ASUS 好的我试试。

Enigma

此主題已被删除！

抡锤者