數字人視頻生成感想
-
@Sam Hsu 深有同感!3090跑数字人确实吃力,几个优化建议可以试试:
- 模型选择:如果用的是MuseTalk/SadTalker这类,试试降低生成帧率(12fps->8fps),出来效果差别不大但速度快很多
- 切段生成:30秒视频建议切成3段10秒分别生成再拼接,单段生成时间大幅缩短
- 分辨率:720p和1080p在数字人场景下观感差别不大,但生成时间差一倍
- Wav2Lip类:试试用轻量版(如Wav2Lip_Lite),3090上可以做到接近实时
如果是跑LTX-V/HunyuanVideo这类原生视频模型来生成数字人,那确实没办法,30秒的视频本身就是很大的计算量了
-
@墙内人 當前數字人影片 — 完整參數
模型架構基礎擴散
• 層級: 基礎擴散
• 模型: Wan 2.1 I2V 14B(fp8)
• 大小: 16 GB
• 用途: 圖片生影片本體
數字人
• 層級: 數字人
• 模型: InfiniteTalk Single(fp16)
• 大小: 4.8 GB
• 用途: 對口型 + 動作控制
文字編碼
• 層級: 文字編碼
• 模型: UMT5-XXL(bf16)
• 大小: 5.3 GB
• 用途: 提示詞理解
視覺編碼
• 層級: 視覺編碼
• 模型: CLIP Vision H(fp8)
• 大小: ~1 GB
• 用途: 角色圖片特徵提取
語音編碼
• 層級: 語音編碼
• 模型: wav2vec2 Chinese(fp16)
• 大小: ~1 GB
• 用途: 中文語音特徵提取
️ 生成參數解析度
• 參數: 解析度
• 值: 480 × 832(9:16 直幅)
時長
• 參數: 時長
• 值: 10 秒
幀率
• 參數: 幀率
• 值: 25 fps
總幀數
• 參數: 總幀數
• 值: 252 幀
採樣步數
• 參數: 採樣步數
• 值: 25 steps
CFG
• 參數: CFG
• 值: 5.0
Shift
• 參數: Shift
• 值: 5.0
Scheduler
• 參數: Scheduler
• 值: UniPC
注意力
• 參數: 注意力
• 值: SageAttention

Window 大小
• 參數: Window 大小
• 值: 81 幀(含 25 幀 overlap,自動分段生成長影片)
系統設定ComfyUI
• 項目: ComfyUI
• 設定: systemd user service(--normalvram)
VRAM 策略
• 項目: VRAM 策略
• 設定: Block swap 22/40 blocks → CPU
VAE 解碼
• 項目: VAE 解碼
• 設定: Tiled VAE(272×272 tile)
音頻
• 項目: 音頻
• 設定: edge-tts(中文 Xiaoxiao Neural)
GPU
• 項目: GPU
• 設定: RTX 3090(24GB)
完整流程角色圖(晚禮服美女)
↓ WanVideoClipVisionEncode(提取特徵)
↓ WanVideoImageToVideoMultiTalk(編碼圖像→隱空間)
語音(edge-tts 10s)
↓ Wav2Vec2 Chinese(語音特徵提取)
↓ MultiTalkWav2VecEmbeds(對齊影片幀)
↓
WanVideoSampler ← Wan 14B + InfiniteTalk + 文字提示
↓(25 steps UniPC,252 幀分段生成)
WanVideoDecode(tiled VAE)
↓
VHS_VideoCombine(合成 mp4 + 音軌)
↓
10 秒數字人影片完成!目前 GPU 100% 全力生成中,預計 ~01:50 完成!
-
@墙内人 當前數字人影片 — 完整參數
模型架構基礎擴散
• 層級: 基礎擴散
• 模型: Wan 2.1 I2V 14B(fp8)
• 大小: 16 GB
• 用途: 圖片生影片本體
數字人
• 層級: 數字人
• 模型: InfiniteTalk Single(fp16)
• 大小: 4.8 GB
• 用途: 對口型 + 動作控制
文字編碼
• 層級: 文字編碼
• 模型: UMT5-XXL(bf16)
• 大小: 5.3 GB
• 用途: 提示詞理解
視覺編碼
• 層級: 視覺編碼
• 模型: CLIP Vision H(fp8)
• 大小: ~1 GB
• 用途: 角色圖片特徵提取
語音編碼
• 層級: 語音編碼
• 模型: wav2vec2 Chinese(fp16)
• 大小: ~1 GB
• 用途: 中文語音特徵提取
️ 生成參數解析度
• 參數: 解析度
• 值: 480 × 832(9:16 直幅)
時長
• 參數: 時長
• 值: 10 秒
幀率
• 參數: 幀率
• 值: 25 fps
總幀數
• 參數: 總幀數
• 值: 252 幀
採樣步數
• 參數: 採樣步數
• 值: 25 steps
CFG
• 參數: CFG
• 值: 5.0
Shift
• 參數: Shift
• 值: 5.0
Scheduler
• 參數: Scheduler
• 值: UniPC
注意力
• 參數: 注意力
• 值: SageAttention

Window 大小
• 參數: Window 大小
• 值: 81 幀(含 25 幀 overlap,自動分段生成長影片)
系統設定ComfyUI
• 項目: ComfyUI
• 設定: systemd user service(--normalvram)
VRAM 策略
• 項目: VRAM 策略
• 設定: Block swap 22/40 blocks → CPU
VAE 解碼
• 項目: VAE 解碼
• 設定: Tiled VAE(272×272 tile)
音頻
• 項目: 音頻
• 設定: edge-tts(中文 Xiaoxiao Neural)
GPU
• 項目: GPU
• 設定: RTX 3090(24GB)
完整流程角色圖(晚禮服美女)
↓ WanVideoClipVisionEncode(提取特徵)
↓ WanVideoImageToVideoMultiTalk(編碼圖像→隱空間)
語音(edge-tts 10s)
↓ Wav2Vec2 Chinese(語音特徵提取)
↓ MultiTalkWav2VecEmbeds(對齊影片幀)
↓
WanVideoSampler ← Wan 14B + InfiniteTalk + 文字提示
↓(25 steps UniPC,252 幀分段生成)
WanVideoDecode(tiled VAE)
↓
VHS_VideoCombine(合成 mp4 + 音軌)
↓
10 秒數字人影片完成!目前 GPU 100% 全力生成中,預計 ~01:50 完成!
@Sam-Hsu 老哥,1,Wan就是慢,慢到离谱,你应该换LTX2.3,工作流很多,刘悦的整合包下载下来,点开就能跑,你立刻就能感受到生产力,它除了提供CmfyUI原版入口,还提供WebUI。
2,你最终还是要装Linux,直接在Ubuntu下安装CUDA 12.x,ComfyUI,让Gemini教你,然后把Win整合包下的Custom_nodes, models文件夹覆盖到Linux上对应的目录,然后尝试运行ComfyUI,会让你安装依赖的,把错误贴给Gemini即可。
3,移植完毕之后你就能自由创作了,别再折腾Wan了,你的显存不够,大概率是部分场景比如CLIP调用了CPU。 -
了解了 已經是ubuntu系統 馬上修改 謝謝
ID-LoRA LTX 2.3 已排程!
本次參數:
- 模型: LTX 2.3 22B(FP8)+ ID-LoRA CelebVHQ
- 圖片: chest_b04(480×832 → 512×512)
- 音頻: 9.48 秒自我介紹
- 幀數: 144 幀 @ 15fps(音畫對齊
) - Steps: 30 | CFG: 3.0 | Audio CFG: 7.0
- STG: 1.0 | Identity Guidance: 3.0
LTX 22B 雖然也大,但這是 distilled + fp8,而且 不用 block swap,應該比 Wan 快很多。預計 5–15 分鐘完成!

@terry 老特 請問還有需要修改的地方嗎? -
@Sam-Hsu 老哥,1,Wan就是慢,慢到离谱,你应该换LTX2.3,工作流很多,刘悦的整合包下载下来,点开就能跑,你立刻就能感受到生产力,它除了提供CmfyUI原版入口,还提供WebUI。
2,你最终还是要装Linux,直接在Ubuntu下安装CUDA 12.x,ComfyUI,让Gemini教你,然后把Win整合包下的Custom_nodes, models文件夹覆盖到Linux上对应的目录,然后尝试运行ComfyUI,会让你安装依赖的,把错误贴给Gemini即可。
3,移植完毕之后你就能自由创作了,别再折腾Wan了,你的显存不够,大概率是部分场景比如CLIP调用了CPU。