ubuntu26.04下7900xtx跑comfyui工作流阶段总结

weidong

走了些弯路，折腾了一段时间wan模型，听锤哥的果断换了ltx，目前flux和ltx2.3还有数字人都跑通了，数字人是下载刘悦的在本地修改后跑通的，效果还不错。

ComfyUI 工作流成果总结

最后更新：2026-05-18

硬件环境 Hardware

组件	规格
CPU	Intel Core i5-12400F (12核)
内存	48GB (MemoryMax,)
GPU	AMD Radeon RX 7900 XTX (24GB VRAM)
系统盘	Kingston NV2 1TB NVMe (279G分区, 39G余量)
外置盘	zyz盘 448GB exfat (94%满, 已挂载)
ROCm	ROCm 7.2
PyTorch	2.12.0+rocm7.2

软件环境 Software

组件	版本/配置
OS	Linux 7.0.0-15-generic
ComfyUI	v0.20.1+ (API + 浏览器)
ComfyUI 端口	8188 (--listen 0.0.0.0)
启动参数	`--disable-async-offload` (不加--lowvram)
环境变量	`TORCH_ROCM_AOTRITON_ENABLE_EXPERIMENTAL=0`

工作流总览

共 5 个工作流，全部存在 /root/ComfyUI/workflows_hermes/

1. Flux1.dev-fp8 文生图

文件: flux1_t2i.json

模型与位置:

模型	类型	大小	位置
flux1-dev-fp8.safetensors	checkpoint (模型+CLIP+VAE)	17GB	`/root/ComfyUI/models/checkpoints/`

参数设置:

分辨率: 1024×1024
采样器: euler
调度器: normal
步数: 20
CFG: 3.5
去噪: 1.0

节点结构: CheckpointLoaderSimple → CLIPTextEncode×2 + EmptyLatentImage → KSampler → VAEDecode → SaveImage

2. Flux2 Klein 4B 文生图

文件: flux2_t2i.json

模型与位置:

模型	类型	大小	位置
flux-2-klein-4b.safetensors	U-Net (diffusion model)	7.3GB	`/root/ComfyUI/models/diffusion_models/`
qwen_3_4b.safetensors	CLIP/T5文本编码器	7.5GB	`/root/ComfyUI/models/text_encoders/`
flux2-vae.safetensors	VAE解码器	321MB	`/root/ComfyUI/models/vae/`

参数设置:

分辨率: 1024×1024
采样器: euler
调度器: simple
步数: 20
CFG: 3.5
去噪: 1.0

节点结构: UNETLoader + CLIPLoader(type=flux2) + VAELoader → CLIPTextEncode×2 + EmptyLatentImage → KSampler → VAEDecode → SaveImage

注意: 文本编码器必须用 qwen_3_4b.safetensors + CLIPLoader(type="flux2")。不要用DualCLIPLoader或UMT5，那会报错。

3. LTX 2.3 文生视频 Text-to-Video

文件: ltx23_t2v.json

模型与位置:

模型	类型	大小	位置
ltx-2.3-22b-distilled-1.1-Q3_K_M.gguf	U-Net GGUF	9.9GB	`/root/ComfyUI/models/unet/` 本地
gemma-3-12b-it-Q4_K_M.gguf	CLIP文本编码器 GGUF	6.8GB	`/root/ComfyUI/models/clip/` 本地
ltx-2.3_text_projection_bf16.safetensors	文本投影	75B	`/root/ComfyUI/models/clip/` (symlink)
LTX23_video_vae_bf16.safetensors	VAE	1.4GB	`/root/ComfyUI/models/vae/`

参数设置:

分辨率: 544×960
帧数: 49 (约2秒)
帧率: 24fps
采样器: euler
步数: 8
CFG: 1.0
max_shift: 2.05, base_shift: 0.95
VAE分块: 4×4 tiles, overlap=2
输出: MP4 H.264

节点结构: UnetLoaderGGUF + DualCLIPLoaderGGUF(type=ltxv) + VAELoader → EmptyLTXVLatentVideo → CLIPTextEncode×2 → LTXVConditioning → LTXVScheduler → CFGGuider + RandomNoise + KSamplerSelect → SamplerCustomAdvanced → LTXVCropGuides → LTXVTiledVAEDecode → VHS_VideoCombine

4. LTX 2.3 图生视频 Image-to-Video

文件: ltx23_i2v.json

模型与位置 (同T2V基础上增加):

模型	类型	大小	位置
同上 +
ltx-2-19b-lora-camera-control-static.safetensors	LoRA	2.1GB	`/root/ComfyUI/models/loras/` 本地

参数设置:

分辨率: 544×960
帧数: 49 (约2秒)
帧率: 24fps
采样器: euler, 8步
CFG: 1.0
静态相机LoRA: strength=0.8
Inplace注入: strength=1.0
输入: your_photo.png (自动resize到544×960)

节点结构: UnetLoaderGGUF + DualCLIPLoaderGGUF → LoraLoaderModelOnly + LoadImage → ImageResizeKJv2 + EmptyLTXVLatentVideo → LTXVImgToVideoInplace → (同T2V采样→解码→合成)

5. LTX 2.3 数字人 LipSync (图+音频→视频)

文件: ltx23_lipsync_digitalhuman.json

模型与位置 (同I2V基础上增加):

模型	类型	大小	位置
ltx23_q4ks.gguf (LTX-2.3-distilled-Q4_K_S.gguf)	U-Net GGUF	16GB	`/root/ComfyUI/models/unet/` 软链→zyz盘
MelBandRoformer_fp16.safetensors	音频人声分离	436MB	`/root/ComfyUI/models/diffusion_models/` 软链→MelBandRoformer/
其他模型同I2V

参数设置:

分辨率: 544×960
帧数: 73 (约3秒)
帧率: 24fps
采样器: euler, 12步
CFG: 1.0
静态相机LoRA: strength=0.8
输入: your_photo.png + your_audio.wav
音频处理: MelBandRoFormer 分离人声 → VHS_VideoCombine.audio 直接合并
音频时长裁剪: 3.0秒 (匹配73帧@24fps)

重要: 音频不走latent注入（LTXVAudioVAEEncode输出NestedTensor不兼容GGUF），而是走MelBandRoFormer分离后直拼。VHS_VideoCombine的pingpong为必填参数，缺了会导致静默失败。

VRAM占用估算

工作流	模型	总VRAM	可用
Flux1.dev-fp8	17GB checkpoint	~17GB	余~7GB
Flux2 Klein 4B	7.3G+7.5G+321M	~15GB	余~9GB
LTX T2V (Q3_K_M)	9.9G+6.8G	~17GB	余~7GB
LTX I2V (Q3_K_M)	9.9G+6.8G+2.1G	~19GB	余~5GB
LTX 数字人 (Q4_K_S)	16G+6.8G+2.1G+436M	~23GB	️ 余~1GB

Q4_K_S 数字人峰值 ~23GB 非常紧，建议先用 Q3_K_M 测试再换 Q4_K_S。

最大视频时长 (480p 720×480)

将latent从544×960改为720×480，latent缩小~35%：

Q3_K_M: ~12秒 (290帧)
Q4_K_S: ~8秒 (193帧)

已知问题

动作迁移 (ICLoRA): 需要原生FP8模型22GB，24GB VRAM装不下。ICLoRA不兼容GGUF路径，当前无法实现完整的动作迁移。
音频latent注入: LTXVAudioVAEEncode输出NestedTensor，与GGUF U-Net不兼容。已绕过走MeldBandRoFormer直拼。
VHS_VideoCombine: pingpong必填，缺了静默失败。LTXVSeparateAVLatent无音频时访问latents[1]会IndexError——I2V应跳过此节点。
Flux2文本编码器: 必须用 qwen_3_4b.safetensors + CLIPLoader(type="flux2")。不能用DualCLIPLoader。
zyz盘依赖: 数字人工作流的Q4_K_S模型在zyz盘软链，拔盘后工作流不可用。Q3_K_M版在本地可独立运行。

terry

很详细，精品，补点截图，我给置顶。

weidong

我这工作流很奇怪，那些连线总是显示不出来，但点一下那些框框就出来了，不影响跑
微信图片_20260518155445_510_749.png

terry

@weidong 大哥，正常就是这样的。

张老师

@terry 我发现论坛没有收藏功能，好几个帖子，我回头想来具体看看，但是找半天找不到，以后帖子越来越多……

terry

@张老师

janebo

看来必须要用ubuntu

sil041

感謝大大的分享~努力學習中

陈鸿

谢谢作者分享，我也回去继续折腾我的7900XTX

ken huang

大概出片时长是多少?我LTX2.3四秒480X320用了~520秒系统32GB RAM, 加大了SWAP FILE还有加了一堆参数才不OOM

--disable-smart-memory --disable-async-offload

可能是eGPU + bazzite(Linux bazzite 6.17.7-ba29.fc43.x86_64) + distrobox ubuntu关系? 其他硬件软件都差不多了

Xiaote

@ken-huang 你的情况不是个例，eGPU + 32GB内存的情况下这个时长很正常。说几点：

eGPU带宽瓶颈是主因 — Thunderbolt 3/4 只有 ~22-32Gbps 实际可用带宽，相比直插PCIe 4.0 x16的 ~32GB/s（256Gbps），差了将近10倍。LTX这种视频模型在推理时需要频繁在显存和内存之间交换数据，eGPU的瓶颈会被放大。你的520s里很大一部分是等数据传输。
32GB系统内存是第二个瓶颈 — LTX 2.3在处理视频时，除了显存占用，系统内存也需要较大空间做中间缓冲区。你加了swap才不OOM，说明物理内存确实不够。建议加到64GB（如果主板支持），X99的DDR3很便宜。
480x320的分辨率 — 这已经是最低档的输出了，想要720p或更高画质的话，输出时间会指数级增长。LTX 2.3是快，但系统内存和eGPU传输限制下快不起来。
参数建议：既然你已经用了 --disable-smart-memory 和 --disable-async-offload，可以再试试加 --lowvram（如果ComfyUI的话）或 --max-batch-size 1，虽然会进一步降低速度，但至少能稳定跑不OOM。

总结：你目前的配置跑LTX 4s 480x320需要~8-9分钟出片，对eGPU+32GB来说已经是正常范围内了。如果想提速，最有效的升级顺序是：加内存到64GB > 换直插显卡（非eGPU）> 再考虑换更好的显卡。

陈鸿

作者有json文件》？我怎么找到下载呢？

weidong

@陈鸿上传不了附件，我这些工作流很基础的，你搭好环境可以下锤哥上传的那个刘悦工作流，跑不通的地方让hermes调试，配合gemini做指导，简单的工作流很快可以跑通的，我现在是用github上的一些做短视频和短剧的项目，修改用本地comfyui生成内容，功能上不合适的可以继续魔改

terry

@weidong 已经开放json文件上传，实用zip压缩更好，限制2M单个文件。

williamlouis

不错的帖子。这个可以直接跑起来了。实用性嘎嘎高。谢谢

weidong

今天把数字人也弄好了，原工作流https://www.runninghub.cn/post/2030978580729040897/?inviteCode=3vhsgtbl
为了适配7900xtx的显存，换了LTX-2.3-22B-distilled-1.1-Q3_K_M.gguf模型，clip用CPU来计算
不过感觉有点慢4秒钟，40分钟，还得优化
LTX 2.3 数字人对口型 — 首跑成功总结

软硬件环境

CPU

• 项目: CPU

• 详情: Intel i5-12400F

GPU

• 项目: GPU

• 详情: AMD Radeon RX 7900 XTX（24.6GB VRAM）

内存

• 项目: 内存

• 详情: 45GB DDR4

系统

• 项目: 系统

• 详情: Linux 7.0.0-15-generic

深度学习

• 项目: 深度学习

• 详情: PyTorch 2.12.0 + ROCm 7.2（gfx1100）

ComfyUI

• 项目: ComfyUI

• 详情: v0.20.1 + frontend 1.42.15

启动参数

• 项目: 启动参数

• 详情: --force-upcast-attention --preview-method none

模型

UNet

• 模型: UNet

• 文件: LTX-2.3-22B-distilled-1.1-Q3_K_M.gguf

• 大小: ~14GB

Video VAE

• 模型: Video VAE

• 文件: LTX23_video_vae_bf16.safetensors

• 大小: 1.4GB

Audio VAE

• 模型: Audio VAE

• 文件: LTX23_audio_vae_bf16.safetensors

• 大小: 693MB

CLIP文本

• 模型: CLIP文本

• 文件: gemma_3_12B_it_fp4_mixed.safetensors + ltx-2.3_text_projection_bf16.safetensors

• 大小: 共~7.5GB

人声分离

• 模型: 人声分离

• 文件: MelBandRoformer_fp16.safetensors

• 大小: ～

CLIP 放在 device=cpu，省 6.8GB VRAM

工作流 & 参数

核心节点链：
LoadImage(4000×6000)
→ ImageScaleByAspectRatio V2(最长边1280, round64) → 896×1280
→ LTXVImgToVideoInplace(strength=0.7)
→ LTXVConcatAVLatent(视频latent + 音频latent)

LoadAudio(spk_1778665696.wav, 22kHz单声道)
→ TrimAudioDuration(4.0s)
→ [LazySwitch1way] → MelBandRoFormer(人声分离)
→ LTXVAudioVAEEncode → SetLatentNoiseMask

合并后 → SamplerCustomAdvanced(8步) → LTXVSeparateAVLatent
→ VAE解码 → VHS_VideoCombine(30fps, h264, crf=19)
关键参数：

Int(98)=duration

• 参数: Int(98)=duration

• 值: 4（当前）

Int(104)=fps

• 参数: Int(104)=fps

• 值: 30

帧数公式

• 参数: 帧数公式

• 值: a×b+1 = 4×30+1 = 121帧

时长

• 参数: 时长

• 值: 4.033秒

分辨率参数: 分辨率

• 值: 896×1280（2:3竖屏）

采样器

• 参数: 采样器

• 值: euler_ancestral_cfg_pp

步数

• 参数: 步数

• 值: 8步

CFG

• 参数: CFG

• 值: 1.0

NAG

• 参数: NAG

• 值: scale=11, alpha=0.25, tau=2.5

Sigmas

• 参数: Sigmas

• 值: 1.0, 0.99375, 0.9875, 0.98125, 0.975, 0.909375, 0.725, 0.421875, 0.0

Prompt

• 参数: Prompt

• 值: "美女对着镜头说话"

VHS pingpong

• 参数: VHS pingpong

terry · • 详情: Linux 7.0.0-15-generic

@weidong 你这速度，4秒钟40分钟也太慢了，你可以尝试降低分辨率，用960*544，足够了。

weidong

@terry 我现在这个应该是VAE解码问题，不知道为啥，40分钟里面有35分钟是在VAE解码的，GPU100%,显存54%，cpu17%，ram53%，VAE解码由fb16换到fp16也一样慢，而且还黑屏，锤哥有碰到过这样的问题吗

weidong

把VAE节点换了，现在快很多了，8秒20分钟

terry

@weidong 我还是建议你降低分辨率，因为你选的分辨率太高，意义不大，你的卡显存很紧张，这种生产速度毫无意义，完全不具备量产价值。你分辨率降低到960*544，后期放大一样的。

抡锤者

ubuntu26.04下7900xtx跑comfyui工作流阶段总结

ComfyUI 工作流成果总结

硬件环境 Hardware

软件环境 Software

工作流总览

1. Flux1.dev-fp8 文生图

2. Flux2 Klein 4B 文生图

3. LTX 2.3 文生视频 Text-to-Video

4. LTX 2.3 图生视频 Image-to-Video

5. LTX 2.3 数字人 LipSync (图+音频→视频)

VRAM占用估算

最大视频时长 (480p 720×480)

已知问题