ubuntu26.04下7900xtx跑comfyui工作流阶段总结

weidong

今天把数字人也弄好了，原工作流https://www.runninghub.cn/post/2030978580729040897/?inviteCode=3vhsgtbl
为了适配7900xtx的显存，换了LTX-2.3-22B-distilled-1.1-Q3_K_M.gguf模型，clip用CPU来计算
不过感觉有点慢4秒钟，40分钟，还得优化
LTX 2.3 数字人对口型 — 首跑成功总结

软硬件环境

CPU

• 项目: CPU

• 详情: Intel i5-12400F

GPU

• 项目: GPU

• 详情: AMD Radeon RX 7900 XTX（24.6GB VRAM）

内存

• 项目: 内存

• 详情: 45GB DDR4

系统

• 项目: 系统

• 详情: Linux 7.0.0-15-generic

深度学习

• 项目: 深度学习

• 详情: PyTorch 2.12.0 + ROCm 7.2（gfx1100）

ComfyUI

• 项目: ComfyUI

• 详情: v0.20.1 + frontend 1.42.15

启动参数

• 项目: 启动参数

• 详情: --force-upcast-attention --preview-method none

模型

UNet

• 模型: UNet

• 文件: LTX-2.3-22B-distilled-1.1-Q3_K_M.gguf

• 大小: ~14GB

Video VAE

• 模型: Video VAE

• 文件: LTX23_video_vae_bf16.safetensors

• 大小: 1.4GB

Audio VAE

• 模型: Audio VAE

• 文件: LTX23_audio_vae_bf16.safetensors

• 大小: 693MB

CLIP文本

• 模型: CLIP文本

• 文件: gemma_3_12B_it_fp4_mixed.safetensors + ltx-2.3_text_projection_bf16.safetensors

• 大小: 共~7.5GB

人声分离

• 模型: 人声分离

• 文件: MelBandRoformer_fp16.safetensors

• 大小: ～

CLIP 放在 device=cpu，省 6.8GB VRAM

工作流 & 参数

核心节点链：
LoadImage(4000×6000)
→ ImageScaleByAspectRatio V2(最长边1280, round64) → 896×1280
→ LTXVImgToVideoInplace(strength=0.7)
→ LTXVConcatAVLatent(视频latent + 音频latent)

LoadAudio(spk_1778665696.wav, 22kHz单声道)
→ TrimAudioDuration(4.0s)
→ [LazySwitch1way] → MelBandRoFormer(人声分离)
→ LTXVAudioVAEEncode → SetLatentNoiseMask

合并后 → SamplerCustomAdvanced(8步) → LTXVSeparateAVLatent
→ VAE解码 → VHS_VideoCombine(30fps, h264, crf=19)
关键参数：

Int(98)=duration

• 参数: Int(98)=duration

• 值: 4（当前）

Int(104)=fps

• 参数: Int(104)=fps

• 值: 30

帧数公式

• 参数: 帧数公式

• 值: a×b+1 = 4×30+1 = 121帧

时长

• 参数: 时长

• 值: 4.033秒

分辨率参数: 分辨率

• 值: 896×1280（2:3竖屏）

采样器

• 参数: 采样器

• 值: euler_ancestral_cfg_pp

步数

• 参数: 步数

• 值: 8步

CFG

• 参数: CFG

• 值: 1.0

NAG

• 参数: NAG

• 值: scale=11, alpha=0.25, tau=2.5

Sigmas

• 参数: Sigmas

• 值: 1.0, 0.99375, 0.9875, 0.98125, 0.975, 0.909375, 0.725, 0.421875, 0.0

Prompt

• 参数: Prompt

• 值: "美女对着镜头说话"

VHS pingpong

• 参数: VHS pingpong

terry · • 详情: Linux 7.0.0-15-generic

@weidong 你这速度，4秒钟40分钟也太慢了，你可以尝试降低分辨率，用960*544，足够了。

weidong

@terry 我现在这个应该是VAE解码问题，不知道为啥，40分钟里面有35分钟是在VAE解码的，GPU100%,显存54%，cpu17%，ram53%，VAE解码由fb16换到fp16也一样慢，而且还黑屏，锤哥有碰到过这样的问题吗

weidong

把VAE节点换了，现在快很多了，8秒20分钟

terry

@weidong 我还是建议你降低分辨率，因为你选的分辨率太高，意义不大，你的卡显存很紧张，这种生产速度毫无意义，完全不具备量产价值。你分辨率降低到960*544，后期放大一样的。

weidong

@terry 试了下快很多，出来效果差不多

陈鸿

大佬空了发下json 谢谢了。我周末用V4 PRO 折腾了，LTX2.3只能生视频。没有声音。

Miraco

@terry 说:

@weidong 我还是建议你降低分辨率，因为你选的分辨率太高，意义不大，你的卡显存很紧张，这种生产速度毫无意义，完全不具备量产价值。你分辨率降低到960*544，后期放大一样的。

老特，后期放大有无教程？或者用什么软件之类的？谢谢

terry

这种节点很多啊，随便问AI找一个就行了，很多工作流就自带放大。

nmgsjjgd vcd

交作业：全程让hermes部署，用的deepseek ,
截图 2026-06-02 12-43-28.png 截图 2026-06-02 12-44-05.png 截图 2026-06-02 12-44-17.png 截图 2026-06-02 12-44-29.png 截图 2026-06-02 12-44-40.png 截图 2026-06-02 12-44-56.png 截图 2026-06-02 12-45-07.png 截图 2026-06-02 12-45-19.png