數字人視頻生成感想

Xiaote

@Sam Hsu 深有同感！3090跑数字人确实吃力，几个优化建议可以试试：

模型选择：如果用的是MuseTalk/SadTalker这类，试试降低生成帧率（12fps->8fps），出来效果差别不大但速度快很多
切段生成：30秒视频建议切成3段10秒分别生成再拼接，单段生成时间大幅缩短
分辨率：720p和1080p在数字人场景下观感差别不大，但生成时间差一倍
Wav2Lip类：试试用轻量版（如Wav2Lip_Lite），3090上可以做到接近实时

如果是跑LTX-V/HunyuanVideo这类原生视频模型来生成数字人，那确实没办法，30秒的视频本身就是很大的计算量了

墙内人

分辨率，模型，系统

Sam Hsu

@墙内人當前數字人影片 — 完整參數

模型架構

基礎擴散

• 層級: 基礎擴散

• 模型: Wan 2.1 I2V 14B（fp8）

• 大小: 16 GB

• 用途: 圖片生影片本體

數字人

• 層級: 數字人

• 模型: InfiniteTalk Single（fp16）

• 大小: 4.8 GB

• 用途: 對口型 + 動作控制

文字編碼

• 層級: 文字編碼

• 模型: UMT5-XXL（bf16）

• 大小: 5.3 GB

• 用途: 提示詞理解

視覺編碼

• 層級: 視覺編碼

• 模型: CLIP Vision H（fp8）

• 大小: ~1 GB

• 用途: 角色圖片特徵提取

語音編碼

• 層級: 語音編碼

• 模型: wav2vec2 Chinese（fp16）

• 大小: ~1 GB

• 用途: 中文語音特徵提取

️ 生成參數

解析度

• 參數: 解析度

• 值: 480 × 832（9:16 直幅）

時長

• 參數: 時長

• 值: 10 秒

幀率

• 參數: 幀率

• 值: 25 fps

總幀數

• 參數: 總幀數

• 值: 252 幀

採樣步數

• 參數: 採樣步數

• 值: 25 steps

CFG

• 參數: CFG

• 值: 5.0

Shift

• 參數: Shift

• 值: 5.0

Scheduler

• 參數: Scheduler

• 值: UniPC

注意力

• 參數: 注意力

• 值: SageAttention

Window 大小

• 參數: Window 大小

• 值: 81 幀（含 25 幀 overlap，自動分段生成長影片）

系統設定

ComfyUI

• 項目: ComfyUI

• 設定: systemd user service（--normalvram）

VRAM 策略

• 項目: VRAM 策略

• 設定: Block swap 22/40 blocks → CPU

VAE 解碼

• 項目: VAE 解碼

• 設定: Tiled VAE（272×272 tile）

音頻

• 項目: 音頻

• 設定: edge-tts（中文 Xiaoxiao Neural）

GPU

• 項目: GPU

• 設定: RTX 3090（24GB）

完整流程

角色圖（晚禮服美女）
↓ WanVideoClipVisionEncode（提取特徵）
↓ WanVideoImageToVideoMultiTalk（編碼圖像→隱空間）
語音（edge-tts 10s）
↓ Wav2Vec2 Chinese（語音特徵提取）
↓ MultiTalkWav2VecEmbeds（對齊影片幀）
↓
WanVideoSampler ← Wan 14B + InfiniteTalk + 文字提示
↓（25 steps UniPC，252 幀分段生成）
WanVideoDecode（tiled VAE）
↓
VHS_VideoCombine（合成 mp4 + 音軌）
↓
10 秒數字人影片完成！

目前 GPU 100% 全力生成中，預計 ~01:50 完成！

terry

@Sam-Hsu 老哥，1，Wan就是慢，慢到离谱，你应该换LTX2.3，工作流很多，刘悦的整合包下载下来，点开就能跑，你立刻就能感受到生产力，它除了提供CmfyUI原版入口，还提供WebUI。
2，你最终还是要装Linux，直接在Ubuntu下安装CUDA 12.x，ComfyUI，让Gemini教你，然后把Win整合包下的Custom_nodes, models文件夹覆盖到Linux上对应的目录，然后尝试运行ComfyUI，会让你安装依赖的，把错误贴给Gemini即可。
3，移植完毕之后你就能自由创作了，别再折腾Wan了，你的显存不够，大概率是部分场景比如CLIP调用了CPU。

Sam Hsu

了解了已經是ubuntu系統馬上修改謝謝
ID-LoRA LTX 2.3 已排程！

本次參數：

模型： LTX 2.3 22B（FP8）+ ID-LoRA CelebVHQ
圖片： chest_b04（480×832 → 512×512）
音頻： 9.48 秒自我介紹
幀數： 144 幀 @ 15fps（音畫對齊）
Steps： 30 | CFG： 3.0 | Audio CFG： 7.0
STG： 1.0 | Identity Guidance： 3.0

LTX 22B 雖然也大，但這是 distilled + fp8，而且不用 block swap，應該比 Wan 快很多。預計 5–15 分鐘完成！
@terry 老特請問還有需要修改的地方嗎？

Sam Hsu

@terry 用ltx2.3 Hermes 都說會oom.......

terry

@Sam-Hsu 你换个正常点的模型不行么，哥，你直接从刘悦的整合包里拷贝过去，或者你就在windows跑。

幻獸

@terry 借个楼，老特，我想问问你用7900XTX，在ubuntu下跑刘悦的LTX2.3数字人无限时长V2工作流的时候，速度怎么样？我跑一个1分12秒的音频，用刘悦的低显存版工作流要50s/层，跑完整版要100s/层，不知道这个速度是快是慢，能给我一个参考吗

terry

@幻獸我和你关注的点不同，我还真没注意这个，你直接会所你480p视频大概多久，我己知道了。

幻獸

@terry 好的我晚点调整一下480p的分辨率，跑一下再来问，我之前都是用的默认参数跑的，长宽好像默认上限是960

terry

@幻獸 960也行啊，我好久没跑了，你说个时间我，大致就知道了。960只能跑20秒。

幻獸

@terry 我是每段15s，跑1分12s的音频，精简版大概40分钟，完整版大概80分钟

pilipala

WAN2.2真的慢到离谱，我用animate做人物背景动作迁移，81帧 720p要跑30分钟，4090D 48G+96G内存。

johnnybegood

@Sam-Hsu 同样3090，我生成10秒视频要用三分半，那可不可以理解成 30秒视频只要 10分钟多点呢？ LTX 2.3

Sam Hsu

@johnnybegood 是的可以提供一下你用什麼方式生成視頻嗎？3090 10秒視頻只要3.5分鐘

johnnybegood

@Sam-Hsu windows11, comfyui最新版， ltx 2.3 导演版工作流， ltx 22b 模型，gemma，八步加速 lora ， 960x544 ， 10秒， 240帧。但是我从来没生成过 30秒视频，10秒对于我来说最快，因为时间太长我这边就进虚拟内存了，进了虚拟内存， 15秒视频就要 30分钟以上。

Sam Hsu

@johnnybegood 可以用Hermes agent
30秒視頻生成3個10秒視頻自動拼接成最終視頻

johnnybegood

@Sam-Hsu 如果想拼接的话， ltx 也有自动拼接无限时长的工作流，最后会自动拼接，也挺好用。只是转场、前后一致性这些我还在学习。现在效果不是太好。当然他们都说要抽卡。

c0aster

请教下，3090 能生成一些短视频之类的然后发点自媒体回血不，入了2张3090

johnnybegood

@c0aster 当然能了，但是回1%血还是回10000% 血那差距可大了

抡锤者

數字人視頻生成感想