走了些弯路,折腾了一段时间wan模型,听锤哥的果断换了ltx,目前flux和ltx2.3还有数字人都跑通了,数字人是下载刘悦的在本地修改后跑通的,效果还不错。
ComfyUI 工作流成果总结
最后更新:2026-05-18
硬件环境 Hardware
| 组件 | 规格 |
|---|---|
| CPU | Intel Core i5-12400F (12核) |
| 内存 | 48GB (MemoryMax,) |
| GPU | AMD Radeon RX 7900 XTX (24GB VRAM) |
| 系统盘 | Kingston NV2 1TB NVMe (279G分区, 39G余量) |
| 外置盘 | zyz盘 448GB exfat (94%满, 已挂载) |
| ROCm | ROCm 7.2 |
| PyTorch | 2.12.0+rocm7.2 |
软件环境 Software
| 组件 | 版本/配置 |
|---|---|
| OS | Linux 7.0.0-15-generic |
| ComfyUI | v0.20.1+ (API + 浏览器) |
| ComfyUI 端口 | 8188 (--listen 0.0.0.0) |
| 启动参数 | --disable-async-offload (不加--lowvram) |
| 环境变量 | TORCH_ROCM_AOTRITON_ENABLE_EXPERIMENTAL=0 |
工作流总览
共 5 个工作流,全部存在 /root/ComfyUI/workflows_hermes/
1. Flux1.dev-fp8 文生图
文件: flux1_t2i.json
模型与位置:
| 模型 | 类型 | 大小 | 位置 |
|---|---|---|---|
| flux1-dev-fp8.safetensors | checkpoint (模型+CLIP+VAE) | 17GB | /root/ComfyUI/models/checkpoints/ |
参数设置:
- 分辨率: 1024×1024
- 采样器: euler
- 调度器: normal
- 步数: 20
- CFG: 3.5
- 去噪: 1.0
节点结构: CheckpointLoaderSimple → CLIPTextEncode×2 + EmptyLatentImage → KSampler → VAEDecode → SaveImage
2. Flux2 Klein 4B 文生图
文件: flux2_t2i.json
模型与位置:
| 模型 | 类型 | 大小 | 位置 |
|---|---|---|---|
| flux-2-klein-4b.safetensors | U-Net (diffusion model) | 7.3GB | /root/ComfyUI/models/diffusion_models/ |
| qwen_3_4b.safetensors | CLIP/T5文本编码器 | 7.5GB | /root/ComfyUI/models/text_encoders/ |
| flux2-vae.safetensors | VAE解码器 | 321MB | /root/ComfyUI/models/vae/ |
参数设置:
- 分辨率: 1024×1024
- 采样器: euler
- 调度器: simple
- 步数: 20
- CFG: 3.5
- 去噪: 1.0
节点结构: UNETLoader + CLIPLoader(type=flux2) + VAELoader → CLIPTextEncode×2 + EmptyLatentImage → KSampler → VAEDecode → SaveImage
注意: 文本编码器必须用
qwen_3_4b.safetensors+ CLIPLoader(type="flux2")。不要用DualCLIPLoader或UMT5,那会报错。
3. LTX 2.3 文生视频 Text-to-Video
文件: ltx23_t2v.json
模型与位置:
| 模型 | 类型 | 大小 | 位置 |
|---|---|---|---|
| ltx-2.3-22b-distilled-1.1-Q3_K_M.gguf | U-Net GGUF | 9.9GB | /root/ComfyUI/models/unet/ 本地 |
| gemma-3-12b-it-Q4_K_M.gguf | CLIP文本编码器 GGUF | 6.8GB | /root/ComfyUI/models/clip/ 本地 |
| ltx-2.3_text_projection_bf16.safetensors | 文本投影 | 75B | /root/ComfyUI/models/clip/ (symlink) |
| LTX23_video_vae_bf16.safetensors | VAE | 1.4GB | /root/ComfyUI/models/vae/ |
参数设置:
- 分辨率: 544×960
- 帧数: 49 (约2秒)
- 帧率: 24fps
- 采样器: euler
- 步数: 8
- CFG: 1.0
- max_shift: 2.05, base_shift: 0.95
- VAE分块: 4×4 tiles, overlap=2
- 输出: MP4 H.264
节点结构: UnetLoaderGGUF + DualCLIPLoaderGGUF(type=ltxv) + VAELoader → EmptyLTXVLatentVideo → CLIPTextEncode×2 → LTXVConditioning → LTXVScheduler → CFGGuider + RandomNoise + KSamplerSelect → SamplerCustomAdvanced → LTXVCropGuides → LTXVTiledVAEDecode → VHS_VideoCombine
4. LTX 2.3 图生视频 Image-to-Video
文件: ltx23_i2v.json
模型与位置 (同T2V基础上增加):
| 模型 | 类型 | 大小 | 位置 |
|---|---|---|---|
| 同上 + | |||
| ltx-2-19b-lora-camera-control-static.safetensors | LoRA | 2.1GB | /root/ComfyUI/models/loras/ 本地 |
参数设置:
- 分辨率: 544×960
- 帧数: 49 (约2秒)
- 帧率: 24fps
- 采样器: euler, 8步
- CFG: 1.0
- 静态相机LoRA: strength=0.8
- Inplace注入: strength=1.0
- 输入:
your_photo.png(自动resize到544×960)
节点结构: UnetLoaderGGUF + DualCLIPLoaderGGUF → LoraLoaderModelOnly + LoadImage → ImageResizeKJv2 + EmptyLTXVLatentVideo → LTXVImgToVideoInplace → (同T2V采样→解码→合成)
5. LTX 2.3 数字人 LipSync (图+音频→视频)
文件: ltx23_lipsync_digitalhuman.json
模型与位置 (同I2V基础上增加):
| 模型 | 类型 | 大小 | 位置 |
|---|---|---|---|
| ltx23_q4ks.gguf (LTX-2.3-distilled-Q4_K_S.gguf) | U-Net GGUF | 16GB | /root/ComfyUI/models/unet/ 软链→zyz盘 |
| MelBandRoformer_fp16.safetensors | 音频人声分离 | 436MB | /root/ComfyUI/models/diffusion_models/ 软链→MelBandRoformer/ |
| 其他模型同I2V |
参数设置:
- 分辨率: 544×960
- 帧数: 73 (约3秒)
- 帧率: 24fps
- 采样器: euler, 12步
- CFG: 1.0
- 静态相机LoRA: strength=0.8
- 输入:
your_photo.png+your_audio.wav - 音频处理: MelBandRoFormer 分离人声 → VHS_VideoCombine.audio 直接合并
- 音频时长裁剪: 3.0秒 (匹配73帧@24fps)
重要: 音频不走latent注入(LTXVAudioVAEEncode输出NestedTensor不兼容GGUF),而是走MelBandRoFormer分离后直拼。VHS_VideoCombine的
pingpong为必填参数,缺了会导致静默失败。
VRAM占用估算
| 工作流 | 模型 | 总VRAM | 可用 |
|---|---|---|---|
| Flux1.dev-fp8 | 17GB checkpoint | ~17GB | 余~7GB |
| Flux2 Klein 4B | 7.3G+7.5G+321M | ~15GB | 余~9GB |
| LTX T2V (Q3_K_M) | 9.9G+6.8G | ~17GB | 余~7GB |
| LTX I2V (Q3_K_M) | 9.9G+6.8G+2.1G | ~19GB | 余~5GB |
| LTX 数字人 (Q4_K_S) | 16G+6.8G+2.1G+436M | ~23GB | ️ 余~1GB |
Q4_K_S 数字人峰值 ~23GB 非常紧,建议先用 Q3_K_M 测试再换 Q4_K_S。
最大视频时长 (480p 720×480)
将latent从544×960改为720×480,latent缩小~35%:
- Q3_K_M: ~12秒 (290帧)
- Q4_K_S: ~8秒 (193帧)
已知问题
- 动作迁移 (ICLoRA): 需要原生FP8模型22GB,24GB VRAM装不下。ICLoRA不兼容GGUF路径,当前无法实现完整的动作迁移。
- 音频latent注入: LTXVAudioVAEEncode输出NestedTensor,与GGUF U-Net不兼容。已绕过走MeldBandRoFormer直拼。
- VHS_VideoCombine:
pingpong必填,缺了静默失败。LTXVSeparateAVLatent无音频时访问latents[1]会IndexError——I2V应跳过此节点。 - Flux2文本编码器: 必须用
qwen_3_4b.safetensors+ CLIPLoader(type="flux2")。不能用DualCLIPLoader。 - zyz盘依赖: 数字人工作流的Q4_K_S模型在zyz盘软链,拔盘后工作流不可用。Q3_K_M版在本地可独立运行。
余~7GB
️ 余~1GB