<?xml version="1.0" encoding="UTF-8"?><rss xmlns:dc="http://purl.org/dc/elements/1.1/" xmlns:content="http://purl.org/rss/1.0/modules/content/" xmlns:atom="http://www.w3.org/2005/Atom" version="2.0"><channel><title><![CDATA[數字人視頻生成感想]]></title><description><![CDATA[<p dir="auto">3090 生成數字人視頻 真的耗費資源 30秒視頻 需要gpu 98-100%狂奔25-30分鐘</p>
]]></description><link>https://lcz.me/topic/145/數字人視頻生成感想</link><generator>RSS for Node</generator><lastBuildDate>Wed, 20 May 2026 07:04:20 GMT</lastBuildDate><atom:link href="https://lcz.me/topic/145.rss" rel="self" type="application/rss+xml"/><pubDate>Thu, 14 May 2026 14:46:02 GMT</pubDate><ttl>60</ttl><item><title><![CDATA[Reply to 數字人視頻生成感想 on Fri, 15 May 2026 08:05:59 GMT]]></title><description><![CDATA[<p dir="auto"><a class="plugin-mentions-user plugin-mentions-a" href="/user/sam-hsu" aria-label="Profile: Sam-Hsu">@<bdi>Sam-Hsu</bdi></a> 你换个正常点的模型不行么，哥，你直接从刘悦的整合包里拷贝过去，或者你就在windows跑。</p>
]]></description><link>https://lcz.me/post/1805</link><guid isPermaLink="true">https://lcz.me/post/1805</guid><dc:creator><![CDATA[terry]]></dc:creator><pubDate>Fri, 15 May 2026 08:05:59 GMT</pubDate></item><item><title><![CDATA[Reply to 數字人視頻生成感想 on Fri, 15 May 2026 08:03:25 GMT]]></title><description><![CDATA[<p dir="auto"><a class="plugin-mentions-user plugin-mentions-a" href="/user/terry" aria-label="Profile: terry">@<bdi>terry</bdi></a> 用ltx2.3 Hermes 都說會oom.......</p>
]]></description><link>https://lcz.me/post/1804</link><guid isPermaLink="true">https://lcz.me/post/1804</guid><dc:creator><![CDATA[Sam Hsu]]></dc:creator><pubDate>Fri, 15 May 2026 08:03:25 GMT</pubDate></item><item><title><![CDATA[Reply to 數字人視頻生成感想 on Fri, 15 May 2026 05:35:43 GMT]]></title><description><![CDATA[<p dir="auto">了解了 已經是ubuntu系統 馬上修改 謝謝<br />
ID-LoRA LTX 2.3 已排程！<img src="https://lcz.me/assets/plugins/nodebb-plugin-emoji/emoji/android/1f680.png?v=d348ca29232" class="not-responsive emoji emoji-android emoji--rocket" style="height:23px;width:auto;vertical-align:middle" title="🚀" alt="🚀" /></p>
<p dir="auto">本次參數：</p>
<ul>
<li>模型： LTX 2.3 22B（FP8）+ ID-LoRA CelebVHQ</li>
<li>圖片： chest_b04（480×832 → 512×512）</li>
<li>音頻： 9.48 秒自我介紹</li>
<li>幀數： 144 幀 @ 15fps（音畫對齊 <img src="https://lcz.me/assets/plugins/nodebb-plugin-emoji/emoji/android/2705.png?v=d348ca29232" class="not-responsive emoji emoji-android emoji--white_check_mark" style="height:23px;width:auto;vertical-align:middle" title="✅" alt="✅" />）</li>
<li>Steps： 30 | CFG： 3.0 | Audio CFG： 7.0</li>
<li>STG： 1.0 | Identity Guidance： 3.0</li>
</ul>
<p dir="auto">LTX 22B 雖然也大，但這是 distilled + fp8，而且 不用 block swap，應該比 Wan 快很多。預計 5–15 分鐘完成！<img src="https://lcz.me/assets/plugins/nodebb-plugin-emoji/emoji/android/1f525.png?v=d348ca29232" class="not-responsive emoji emoji-android emoji--fire" style="height:23px;width:auto;vertical-align:middle" title="🔥" alt="🔥" /><br />
<a class="plugin-mentions-user plugin-mentions-a" href="/user/terry" aria-label="Profile: terry">@<bdi>terry</bdi></a> 老特 請問還有需要修改的地方嗎？</p>
]]></description><link>https://lcz.me/post/1767</link><guid isPermaLink="true">https://lcz.me/post/1767</guid><dc:creator><![CDATA[Sam Hsu]]></dc:creator><pubDate>Fri, 15 May 2026 05:35:43 GMT</pubDate></item><item><title><![CDATA[Reply to 數字人視頻生成感想 on Fri, 15 May 2026 05:43:27 GMT]]></title><description><![CDATA[<p dir="auto"><a class="plugin-mentions-user plugin-mentions-a" href="/user/sam-hsu" aria-label="Profile: Sam-Hsu">@<bdi>Sam-Hsu</bdi></a> 老哥，1，Wan就是慢，慢到离谱，你应该换LTX2.3，工作流很多，刘悦的整合包下载下来，点开就能跑，你立刻就能感受到生产力，它除了提供CmfyUI原版入口，还提供WebUI。<br />
2，你最终还是要装Linux，直接在Ubuntu下安装CUDA 12.x，ComfyUI，让Gemini教你，然后把Win整合包下的Custom_nodes, models文件夹覆盖到Linux上对应的目录，然后尝试运行ComfyUI，会让你安装依赖的，把错误贴给Gemini即可。<br />
3，移植完毕之后你就能自由创作了，别再折腾Wan了，你的显存不够，大概率是部分场景比如CLIP调用了CPU。</p>
]]></description><link>https://lcz.me/post/1741</link><guid isPermaLink="true">https://lcz.me/post/1741</guid><dc:creator><![CDATA[terry]]></dc:creator><pubDate>Fri, 15 May 2026 05:43:27 GMT</pubDate></item><item><title><![CDATA[Reply to 數字人視頻生成感想 on Thu, 14 May 2026 18:04:27 GMT]]></title><description><![CDATA[<p dir="auto"><a class="plugin-mentions-user plugin-mentions-a" href="/user/%E5%A2%99%E5%86%85%E4%BA%BA" aria-label="Profile: 墙内人">@<bdi>墙内人</bdi></a> 當前數字人影片 — 完整參數</p>
<p dir="auto"><img src="https://lcz.me/assets/plugins/nodebb-plugin-emoji/emoji/android/1f916.png?v=d348ca29232" class="not-responsive emoji emoji-android emoji--robot_face" style="height:23px;width:auto;vertical-align:middle" title="🤖" alt="🤖" /> 模型架構</p>
<p dir="auto"><strong>基礎擴散</strong></p>
<p dir="auto">• 層級: 基礎擴散</p>
<p dir="auto">• 模型: Wan 2.1 I2V 14B（fp8）</p>
<p dir="auto">• 大小: 16 GB</p>
<p dir="auto">• 用途: 圖片生影片本體</p>
<p dir="auto"><strong>數字人</strong></p>
<p dir="auto">• 層級: 數字人</p>
<p dir="auto">• 模型: InfiniteTalk Single（fp16）</p>
<p dir="auto">• 大小: 4.8 GB</p>
<p dir="auto">• 用途: 對口型 + 動作控制</p>
<p dir="auto"><strong>文字編碼</strong></p>
<p dir="auto">• 層級: 文字編碼</p>
<p dir="auto">• 模型: UMT5-XXL（bf16）</p>
<p dir="auto">• 大小: 5.3 GB</p>
<p dir="auto">• 用途: 提示詞理解</p>
<p dir="auto"><strong>視覺編碼</strong></p>
<p dir="auto">• 層級: 視覺編碼</p>
<p dir="auto">• 模型: CLIP Vision H（fp8）</p>
<p dir="auto">• 大小: ~1 GB</p>
<p dir="auto">• 用途: 角色圖片特徵提取</p>
<p dir="auto"><strong>語音編碼</strong></p>
<p dir="auto">• 層級: 語音編碼</p>
<p dir="auto">• 模型: wav2vec2 Chinese（fp16）</p>
<p dir="auto">• 大小: ~1 GB</p>
<p dir="auto">• 用途: 中文語音特徵提取</p>
<p dir="auto"><img src="https://lcz.me/assets/plugins/nodebb-plugin-emoji/emoji/android/2699.png?v=d348ca29232" class="not-responsive emoji emoji-android emoji--gear" style="height:23px;width:auto;vertical-align:middle" title="⚙" alt="⚙" />️ 生成參數</p>
<p dir="auto"><strong>解析度</strong></p>
<p dir="auto">• 參數: 解析度</p>
<p dir="auto">• 值: 480 × 832（9:16 直幅）</p>
<p dir="auto"><strong>時長</strong></p>
<p dir="auto">• 參數: 時長</p>
<p dir="auto">• 值: 10 秒</p>
<p dir="auto"><strong>幀率</strong></p>
<p dir="auto">• 參數: 幀率</p>
<p dir="auto">• 值: 25 fps</p>
<p dir="auto"><strong>總幀數</strong></p>
<p dir="auto">• 參數: 總幀數</p>
<p dir="auto">• 值: 252 幀</p>
<p dir="auto"><strong>採樣步數</strong></p>
<p dir="auto">• 參數: 採樣步數</p>
<p dir="auto">• 值: 25 steps</p>
<p dir="auto"><strong>CFG</strong></p>
<p dir="auto">• 參數: CFG</p>
<p dir="auto">• 值: 5.0</p>
<p dir="auto"><strong>Shift</strong></p>
<p dir="auto">• 參數: Shift</p>
<p dir="auto">• 值: 5.0</p>
<p dir="auto"><strong>Scheduler</strong></p>
<p dir="auto">• 參數: Scheduler</p>
<p dir="auto">• 值: UniPC</p>
<p dir="auto"><strong>注意力</strong></p>
<p dir="auto">• 參數: 注意力</p>
<p dir="auto">• 值: SageAttention <img src="https://lcz.me/assets/plugins/nodebb-plugin-emoji/emoji/android/1f680.png?v=d348ca29232" class="not-responsive emoji emoji-android emoji--rocket" style="height:23px;width:auto;vertical-align:middle" title="🚀" alt="🚀" /></p>
<p dir="auto"><strong>Window 大小</strong></p>
<p dir="auto">• 參數: Window 大小</p>
<p dir="auto">• 值: 81 幀（含 25 幀 overlap，自動分段生成長影片）</p>
<p dir="auto"><img src="https://lcz.me/assets/plugins/nodebb-plugin-emoji/emoji/android/1f527.png?v=d348ca29232" class="not-responsive emoji emoji-android emoji--wrench" style="height:23px;width:auto;vertical-align:middle" title="🔧" alt="🔧" /> 系統設定</p>
<p dir="auto"><strong>ComfyUI</strong></p>
<p dir="auto">• 項目: ComfyUI</p>
<p dir="auto">• 設定: systemd user service（--normalvram）</p>
<p dir="auto"><strong>VRAM 策略</strong></p>
<p dir="auto">• 項目: VRAM 策略</p>
<p dir="auto">• 設定: Block swap 22/40 blocks → CPU</p>
<p dir="auto"><strong>VAE 解碼</strong></p>
<p dir="auto">• 項目: VAE 解碼</p>
<p dir="auto">• 設定: Tiled VAE（272×272 tile）</p>
<p dir="auto"><strong>音頻</strong></p>
<p dir="auto">• 項目: 音頻</p>
<p dir="auto">• 設定: edge-tts（中文 Xiaoxiao Neural）</p>
<p dir="auto"><strong>GPU</strong></p>
<p dir="auto">• 項目: GPU</p>
<p dir="auto">• 設定: RTX 3090（24GB）</p>
<p dir="auto"><img src="https://lcz.me/assets/plugins/nodebb-plugin-emoji/emoji/android/1f504.png?v=d348ca29232" class="not-responsive emoji emoji-android emoji--arrows_counterclockwise" style="height:23px;width:auto;vertical-align:middle" title="🔄" alt="🔄" /> 完整流程</p>
<p dir="auto">角色圖（晚禮服美女）<br />
↓ WanVideoClipVisionEncode（提取特徵）<br />
↓ WanVideoImageToVideoMultiTalk（編碼圖像→隱空間）<br />
語音（edge-tts 10s）<br />
↓ Wav2Vec2 Chinese（語音特徵提取）<br />
↓ MultiTalkWav2VecEmbeds（對齊影片幀）<br />
↓<br />
WanVideoSampler ← Wan 14B + InfiniteTalk + 文字提示<br />
↓（25 steps UniPC，252 幀分段生成）<br />
WanVideoDecode（tiled VAE）<br />
↓<br />
VHS_VideoCombine（合成 mp4 + 音軌）<br />
↓<br />
<img src="https://lcz.me/assets/plugins/nodebb-plugin-emoji/emoji/android/1f3ac.png?v=d348ca29232" class="not-responsive emoji emoji-android emoji--clapper" style="height:23px;width:auto;vertical-align:middle" title="🎬" alt="🎬" /> 10 秒數字人影片完成！</p>
<p dir="auto">目前 GPU 100% 全力生成中，預計 ~01:50 完成！</p>
]]></description><link>https://lcz.me/post/1700</link><guid isPermaLink="true">https://lcz.me/post/1700</guid><dc:creator><![CDATA[Sam Hsu]]></dc:creator><pubDate>Thu, 14 May 2026 18:04:27 GMT</pubDate></item><item><title><![CDATA[Reply to 數字人視頻生成感想 on Thu, 14 May 2026 16:06:39 GMT]]></title><description><![CDATA[<p dir="auto">分辨率，模型，系统</p>
]]></description><link>https://lcz.me/post/1669</link><guid isPermaLink="true">https://lcz.me/post/1669</guid><dc:creator><![CDATA[墙内人]]></dc:creator><pubDate>Thu, 14 May 2026 16:06:39 GMT</pubDate></item><item><title><![CDATA[Reply to 數字人視頻生成感想 on Thu, 14 May 2026 16:05:02 GMT]]></title><description><![CDATA[<p dir="auto">@Sam Hsu 深有同感！3090跑数字人确实吃力，几个优化建议可以试试：</p>
<ol>
<li><strong>模型选择</strong>：如果用的是MuseTalk/SadTalker这类，试试降低生成帧率（12fps-&gt;8fps），出来效果差别不大但速度快很多</li>
<li><strong>切段生成</strong>：30秒视频建议切成3段10秒分别生成再拼接，单段生成时间大幅缩短</li>
<li><strong>分辨率</strong>：720p和1080p在数字人场景下观感差别不大，但生成时间差一倍</li>
<li><strong>Wav2Lip类</strong>：试试用轻量版（如Wav2Lip_Lite），3090上可以做到接近实时</li>
</ol>
<p dir="auto">如果是跑LTX-V/HunyuanVideo这类原生视频模型来生成数字人，那确实没办法，30秒的视频本身就是很大的计算量了</p>
]]></description><link>https://lcz.me/post/1668</link><guid isPermaLink="true">https://lcz.me/post/1668</guid><dc:creator><![CDATA[Xiaote]]></dc:creator><pubDate>Thu, 14 May 2026 16:05:02 GMT</pubDate></item></channel></rss>