<?xml version="1.0" encoding="UTF-8"?><rss xmlns:dc="http://purl.org/dc/elements/1.1/" xmlns:content="http://purl.org/rss/1.0/modules/content/" xmlns:atom="http://www.w3.org/2005/Atom" version="2.0"><channel><title><![CDATA[Voxcpm 关于 tag 的一点心得 (LTX2.3 LIP Syn + Voxcpm)]]></title><description><![CDATA[<p dir="auto">前文：</p>
<h3>基本上现在我玩ai 创作视频，都会利用我惯用的四件套， 加上LTX2.3 Lip Syn ：</h3>
<p dir="auto">1 audacity mp4 转mp3 剪辑声音，浑声，为什么用这个：主要是秒开，秒输出，不用等。。。</p>
<p dir="auto"><a href="https://www.audacityteam.org/download/" rel="nofollow ugc">https://www.audacityteam.org/download/</a></p>
<hr />
<p dir="auto">2 yt2mkv_tools 抽出极度干净的人声 vocal ， 原本这个py 是用来自作karaoke 的，用他的原因：也是秒开，秒输出</p>
<p dir="auto"><a href="https://upload.lcz.me/uploads/539ef5a6-c544-4f30-ae08-6d2da7459175.json" rel="nofollow ugc">yt2mkv_tools.py 记得save as 下载，把json 改成zip</a></p>
<p dir="auto"><img src="https://upload.lcz.me/uploads/c2657ed1-25e5-47b8-89d8-880bb1f1466a.png" alt="Screenshot 2026-06-21 090644.png" class=" img-fluid img-markdown" /></p>
<hr />
<p dir="auto">3 SoulX-Singer 克隆某人物的声音，合成去别人里的视频讲话，或者mtv, 他会自动按照别人视频的声音时间帧，插入我要的人物声音，比如：孙燕姿唱郭富城的对你爱不完</p>
<p dir="auto"><a href="https://github.com/Soul-AILab/SoulX-Singer" rel="nofollow ugc">https://github.com/Soul-AILab/SoulX-Singer</a></p>
<p dir="auto"><img src="https://upload.lcz.me/uploads/0f789127-37b1-40a3-b365-e55ef13b8888.png" alt="Screenshot 2026-06-21 101719.png" class=" img-fluid img-markdown" /></p>
<hr />
<p dir="auto">4 VoxCPM 克隆某人物的声音，按照剧本发出声音</p>
<p dir="auto"><a href="https://github.com/OpenBMB/VoxCPM" rel="nofollow ugc">https://github.com/OpenBMB/VoxCPM</a></p>
<p dir="auto"><img src="https://upload.lcz.me/uploads/cfe4dbdd-eb1a-4159-9517-500e98578d42.png" alt="Screenshot 2026-06-22 121214.png" class=" img-fluid img-markdown" /></p>
<hr />
<p dir="auto">5 LTX2.3 Lip Syn<br />
<a href="https://upload.lcz.me/uploads/30b09f0e-f8a1-47e2-abac-68aea3adb6b2.json" rel="nofollow ugc">video_ltx2_3_ia2v_imbi.json</a></p>
<hr />
<h3>开始</h3>
<h3>我先拿江湖大哥驹爷来作为示范，为什么：因为我想研究江湖的讲话那种方式</h3>
<p dir="auto">先去youtube 下载驹爷的原声 （提醒需要拿到那种真正江湖语气的原声，如果是念稿的声音，就算clone出来需要处理的问题太多。。。）</p>
<p dir="auto">然后去gemini prompt:</p>
<pre><code>我现在有一段对白，我想模仿黑社会大哥大的语调
我要直接放進 VOXCPM 跑 AI 語音，
请加上合适的tag, 
请推荐合适的Control Instruction
</code></pre>
<p dir="auto">经过超过几十次的 tag 调换，终于找到一个比较接近的江湖语调，看我的示范：</p>
<p dir="auto">Control Instruction</p>
<pre><code>粤语，中年男子，暴躁愤怒的中年男声，语速快，Control: speed=0.88, pitch=0.93,dynamic_range=high, CRITICAL: Do NOT read aloud any text inside brackets or tags like [sigh], [gasp], or [laugh]. Treat them purely as non-verbal physical actions, emotional tones, and breathing cues.
</code></pre>
<p dir="auto">Target Text</p>
<pre><code>[laughter_giggle] 江湖總係問：我巔峰嗰陣到底有幾勁？
唔使睇我贏過幾多仗，[speed_up] 去問吓嗰三個食過亏嘅人！
[Deep pitch]刀文龙，被我從貴賓廳打到公海，記了我足足二十五年！
[High-pitched]雙英青，帶隊過海被我用重武器轟返香港，只留低一句「好彩走得快」！ 
[Deep pitch]還有雞腳黑，在灣仔堵我，反被我當眾暴打，在碼頭只能聽我講「sa yo na ra」！
[Gravelly]  呢三位夠響当当吧？
但喺 1996 年嘅澳門，我講一，冇人敢講二！
[Robust]我講打，就一定要有人仆街！ 
[chuckle] 不過，[Smooth]而家嘅我，喺抖音做網紅跳舞呀。 
[laughter_giggle] [laughter_giggle]點評論區，睇我點樣將洪門文化變成流量密碼啦！ 
</code></pre>
<h3>在这里的技巧我使用了 tag, 其实我也不知道用得对不对，反正可以一直试:</h3>
<p dir="auto">VoxCPM 并不像传统 TTS 那样使用硬编码的离散语言标签，<br />
而是采用了无分词器（Tokenizer-Free）与提示词驱动的设计。<br />
控制音色、情绪、语速和风格的标签（Tags）统称为 Style Control，<br />
它们直接以自然语言（中英文皆可）写在文本前方的圆括号 ( ) 内。<br />
以下是 VoxCPM 2.0 推荐及支持的风格和音色控制标签列表：</p>
<h2>1. 情绪与风格标签（Emotion &amp; Style）用于控制语气和情感，可以自由组合使用：</h2>
<ul>
<li>cheerful / happy / joyful（欢快、高兴）</li>
<li>sad（悲伤）</li>
<li>angry（愤怒）</li>
<li>gentle（温柔）</li>
<li>excited（激动、兴奋）</li>
<li>calm / peaceful（平静）</li>
<li>depressed / sorrowful（忧郁）</li>
<li>serious（严肃）fearful（害怕）</li>
</ul>
<h2>2. 节奏与语速标签（Pace）用于控制说话的速度或节奏：</h2>
<ul>
<li>slightly faster（语速稍快）</li>
<li>slower（语速慢）</li>
<li>soft / whispering（轻声）</li>
<li>loud / energetic（响亮、有活力）</li>
</ul>
<h2>3. 音色设计标签（Voice Design / Timbre）用于全新创造一个声音（Voice Design 模式），无需参考音频：</h2>
<ul>
<li>
<p dir="auto">性别与年龄：A young woman（年轻女性）、An old man（老年男性）、A little girl（小女孩）、Middle-aged male（中年男性）</p>
</li>
<li>
<p dir="auto">声线质感：gentle and sweet voice（温柔甜美的声音）、deep and resonant（低沉浑厚）、clear and crisp（清脆）</p>
</li>
</ul>
<h2>4. 非语言标签（Non-linguistic Tags）用于模拟更逼真的口语化表达，点到为止即可：</h2>
<ul>
<li>[laugh]（笑声）</li>
<li>[sigh]（叹气）</li>
<li>[breath]（喘气、呼吸）</li>
</ul>
<hr />
<p dir="auto">效果1 没有加上特别tag, 出来效果好像念稿<br />
<a href="https://www.youtube.com/watch?v=pHhmnsMutzw" rel="nofollow ugc">https://www.youtube.com/watch?v=pHhmnsMutzw</a></p>
<p dir="auto">效果2 没有加上特别tag, 出来效果好像念稿<br />
<a href="https://www.youtube.com/watch?v=4zr0-on-vK0" rel="nofollow ugc">https://www.youtube.com/watch?v=4zr0-on-vK0</a></p>
<p dir="auto">效果3 加上特别tag, 出来效果比较接近<br />
<a href="https://www.youtube.com/watch?v=HP62C0DvETM" rel="nofollow ugc">https://www.youtube.com/watch?v=HP62C0DvETM</a></p>
]]></description><link>https://lcz.me/topic/668/voxcpm-关于-tag-的一点心得-ltx2.3-lip-syn-voxcpm</link><generator>RSS for Node</generator><lastBuildDate>Wed, 01 Jul 2026 12:08:37 GMT</lastBuildDate><atom:link href="https://lcz.me/topic/668.rss" rel="self" type="application/rss+xml"/><pubDate>Tue, 23 Jun 2026 05:07:08 GMT</pubDate><ttl>60</ttl><item><title><![CDATA[Reply to Voxcpm 关于 tag 的一点心得 (LTX2.3 LIP Syn + Voxcpm) on Wed, 24 Jun 2026 14:17:17 GMT]]></title><description><![CDATA[<p dir="auto"><a class="plugin-mentions-user plugin-mentions-a" href="/user/imbiplaza-asus" aria-label="Profile: imbiplaza-ASUS">@<bdi>imbiplaza-ASUS</bdi></a> 好的 我试试。</p>
]]></description><link>https://lcz.me/post/8161</link><guid isPermaLink="true">https://lcz.me/post/8161</guid><dc:creator><![CDATA[Q maria]]></dc:creator><pubDate>Wed, 24 Jun 2026 14:17:17 GMT</pubDate></item><item><title><![CDATA[Reply to Voxcpm 关于 tag 的一点心得 (LTX2.3 LIP Syn + Voxcpm) on Wed, 24 Jun 2026 11:26:01 GMT]]></title><description><![CDATA[<p dir="auto"><a class="plugin-mentions-user plugin-mentions-a" href="/user/q-maria" aria-label="Profile: Q-maria">@<bdi>Q-maria</bdi></a> 他们应该使用codex 改成py gui 的，你试一试，跟codex说，把seed 放出来</p>
]]></description><link>https://lcz.me/post/8133</link><guid isPermaLink="true">https://lcz.me/post/8133</guid><dc:creator><![CDATA[imbiplaza ASUS]]></dc:creator><pubDate>Wed, 24 Jun 2026 11:26:01 GMT</pubDate></item><item><title><![CDATA[Reply to Voxcpm 关于 tag 的一点心得 (LTX2.3 LIP Syn + Voxcpm) on Wed, 24 Jun 2026 08:09:35 GMT]]></title><description><![CDATA[<p dir="auto">我下载的也是voxcpm2 但我看有的人的界面不是这种。。这个控制不了seed  我用提示词随机生成一个声音觉得满意之后 我应该如何让他保持这个音色呢？</p>
]]></description><link>https://lcz.me/post/8109</link><guid isPermaLink="true">https://lcz.me/post/8109</guid><dc:creator><![CDATA[Q maria]]></dc:creator><pubDate>Wed, 24 Jun 2026 08:09:35 GMT</pubDate></item><item><title><![CDATA[Reply to Voxcpm 关于 tag 的一点心得 (LTX2.3 LIP Syn + Voxcpm) on Tue, 23 Jun 2026 05:23:32 GMT]]></title><description><![CDATA[<p dir="auto">非常好，新人可以理解下做应用，我觉得做短视频比较有前景，这玩意要标注AI，容易被平台打击。</p>
]]></description><link>https://lcz.me/post/7970</link><guid isPermaLink="true">https://lcz.me/post/7970</guid><dc:creator><![CDATA[terry]]></dc:creator><pubDate>Tue, 23 Jun 2026 05:23:32 GMT</pubDate></item></channel></rss>