ubuntu26.04下7900xtx跑comfyui工作流阶段总结

Xiaote

@ken-huang 你的情况不是个例，eGPU + 32GB内存的情况下这个时长很正常。说几点：

eGPU带宽瓶颈是主因 — Thunderbolt 3/4 只有 ~22-32Gbps 实际可用带宽，相比直插PCIe 4.0 x16的 ~32GB/s（256Gbps），差了将近10倍。LTX这种视频模型在推理时需要频繁在显存和内存之间交换数据，eGPU的瓶颈会被放大。你的520s里很大一部分是等数据传输。
32GB系统内存是第二个瓶颈 — LTX 2.3在处理视频时，除了显存占用，系统内存也需要较大空间做中间缓冲区。你加了swap才不OOM，说明物理内存确实不够。建议加到64GB（如果主板支持），X99的DDR3很便宜。
480x320的分辨率 — 这已经是最低档的输出了，想要720p或更高画质的话，输出时间会指数级增长。LTX 2.3是快，但系统内存和eGPU传输限制下快不起来。
参数建议：既然你已经用了 --disable-smart-memory 和 --disable-async-offload，可以再试试加 --lowvram（如果ComfyUI的话）或 --max-batch-size 1，虽然会进一步降低速度，但至少能稳定跑不OOM。

总结：你目前的配置跑LTX 4s 480x320需要~8-9分钟出片，对eGPU+32GB来说已经是正常范围内了。如果想提速，最有效的升级顺序是：加内存到64GB > 换直插显卡（非eGPU）> 再考虑换更好的显卡。

陈鸿

作者有json文件》？我怎么找到下载呢？

weidong

@陈鸿上传不了附件，我这些工作流很基础的，你搭好环境可以下锤哥上传的那个刘悦工作流，跑不通的地方让hermes调试，配合gemini做指导，简单的工作流很快可以跑通的，我现在是用github上的一些做短视频和短剧的项目，修改用本地comfyui生成内容，功能上不合适的可以继续魔改

terry

@weidong 已经开放json文件上传，实用zip压缩更好，限制2M单个文件。

williamlouis

不错的帖子。这个可以直接跑起来了。实用性嘎嘎高。谢谢

weidong

今天把数字人也弄好了，原工作流https://www.runninghub.cn/post/2030978580729040897/?inviteCode=3vhsgtbl
为了适配7900xtx的显存，换了LTX-2.3-22B-distilled-1.1-Q3_K_M.gguf模型，clip用CPU来计算
不过感觉有点慢4秒钟，40分钟，还得优化
LTX 2.3 数字人对口型 — 首跑成功总结

软硬件环境

CPU

• 项目: CPU

• 详情: Intel i5-12400F

GPU

• 项目: GPU

• 详情: AMD Radeon RX 7900 XTX（24.6GB VRAM）

内存

• 项目: 内存

• 详情: 45GB DDR4

系统

• 项目: 系统

• 详情: Linux 7.0.0-15-generic

深度学习

• 项目: 深度学习

• 详情: PyTorch 2.12.0 + ROCm 7.2（gfx1100）

ComfyUI

• 项目: ComfyUI

• 详情: v0.20.1 + frontend 1.42.15

启动参数

• 项目: 启动参数

• 详情: --force-upcast-attention --preview-method none

模型

UNet

• 模型: UNet

• 文件: LTX-2.3-22B-distilled-1.1-Q3_K_M.gguf

• 大小: ~14GB

Video VAE

• 模型: Video VAE

• 文件: LTX23_video_vae_bf16.safetensors

• 大小: 1.4GB

Audio VAE

• 模型: Audio VAE

• 文件: LTX23_audio_vae_bf16.safetensors

• 大小: 693MB

CLIP文本

• 模型: CLIP文本

• 文件: gemma_3_12B_it_fp4_mixed.safetensors + ltx-2.3_text_projection_bf16.safetensors

• 大小: 共~7.5GB

人声分离

• 模型: 人声分离

• 文件: MelBandRoformer_fp16.safetensors

• 大小: ～

CLIP 放在 device=cpu，省 6.8GB VRAM

工作流 & 参数

核心节点链：
LoadImage(4000×6000)
→ ImageScaleByAspectRatio V2(最长边1280, round64) → 896×1280
→ LTXVImgToVideoInplace(strength=0.7)
→ LTXVConcatAVLatent(视频latent + 音频latent)

LoadAudio(spk_1778665696.wav, 22kHz单声道)
→ TrimAudioDuration(4.0s)
→ [LazySwitch1way] → MelBandRoFormer(人声分离)
→ LTXVAudioVAEEncode → SetLatentNoiseMask

合并后 → SamplerCustomAdvanced(8步) → LTXVSeparateAVLatent
→ VAE解码 → VHS_VideoCombine(30fps, h264, crf=19)
关键参数：

Int(98)=duration

• 参数: Int(98)=duration

• 值: 4（当前）

Int(104)=fps

• 参数: Int(104)=fps

• 值: 30

帧数公式

• 参数: 帧数公式

• 值: a×b+1 = 4×30+1 = 121帧

时长

• 参数: 时长

• 值: 4.033秒

分辨率参数: 分辨率

• 值: 896×1280（2:3竖屏）

采样器

• 参数: 采样器

• 值: euler_ancestral_cfg_pp

步数

• 参数: 步数

• 值: 8步

CFG

• 参数: CFG

• 值: 1.0

NAG

• 参数: NAG

• 值: scale=11, alpha=0.25, tau=2.5

Sigmas

• 参数: Sigmas

• 值: 1.0, 0.99375, 0.9875, 0.98125, 0.975, 0.909375, 0.725, 0.421875, 0.0

Prompt

• 参数: Prompt

• 值: "美女对着镜头说话"

VHS pingpong

• 参数: VHS pingpong

terry · • 详情: Linux 7.0.0-15-generic

@weidong 你这速度，4秒钟40分钟也太慢了，你可以尝试降低分辨率，用960*544，足够了。

weidong

@terry 我现在这个应该是VAE解码问题，不知道为啥，40分钟里面有35分钟是在VAE解码的，GPU100%,显存54%，cpu17%，ram53%，VAE解码由fb16换到fp16也一样慢，而且还黑屏，锤哥有碰到过这样的问题吗

weidong

把VAE节点换了，现在快很多了，8秒20分钟

terry

@weidong 我还是建议你降低分辨率，因为你选的分辨率太高，意义不大，你的卡显存很紧张，这种生产速度毫无意义，完全不具备量产价值。你分辨率降低到960*544，后期放大一样的。

weidong

@terry 试了下快很多，出来效果差不多

陈鸿

大佬空了发下json 谢谢了。我周末用V4 PRO 折腾了，LTX2.3只能生视频。没有声音。

Miraco

@terry 说:

@weidong 我还是建议你降低分辨率，因为你选的分辨率太高，意义不大，你的卡显存很紧张，这种生产速度毫无意义，完全不具备量产价值。你分辨率降低到960*544，后期放大一样的。

老特，后期放大有无教程？或者用什么软件之类的？谢谢

terry

这种节点很多啊，随便问AI找一个就行了，很多工作流就自带放大。

nmgsjjgd vcd

交作业：全程让hermes部署，用的deepseek ,
截图 2026-06-02 12-43-28.png 截图 2026-06-02 12-44-05.png 截图 2026-06-02 12-44-17.png 截图 2026-06-02 12-44-29.png 截图 2026-06-02 12-44-40.png 截图 2026-06-02 12-44-56.png 截图 2026-06-02 12-45-07.png 截图 2026-06-02 12-45-19.png