ubuntu26.04下7900xtx跑comfyui工作流阶段总结
-
今天把数字人也弄好了,原工作流https://www.runninghub.cn/post/2030978580729040897/?inviteCode=3vhsgtbl
为了适配7900xtx的显存,换了LTX-2.3-22B-distilled-1.1-Q3_K_M.gguf模型,clip用CPU来计算
不过感觉有点慢4秒钟,40分钟,还得优化
LTX 2.3 数字人对口型 — 首跑成功总结
软硬件环境CPU
• 项目: CPU
• 详情: Intel i5-12400F
GPU
• 项目: GPU
• 详情: AMD Radeon RX 7900 XTX(24.6GB VRAM)
内存
• 项目: 内存
• 详情: 45GB DDR4
系统
• 项目: 系统
• 详情: Linux 7.0.0-15-generic
深度学习
• 项目: 深度学习
• 详情: PyTorch 2.12.0 + ROCm 7.2(gfx1100)
ComfyUI
• 项目: ComfyUI
• 详情: v0.20.1 + frontend 1.42.15
启动参数
• 项目: 启动参数
• 详情: --force-upcast-attention --preview-method none
模型UNet
• 模型: UNet
• 文件: LTX-2.3-22B-distilled-1.1-Q3_K_M.gguf
• 大小: ~14GB
Video VAE
• 模型: Video VAE
• 文件: LTX23_video_vae_bf16.safetensors
• 大小: 1.4GB
Audio VAE
• 模型: Audio VAE
• 文件: LTX23_audio_vae_bf16.safetensors
• 大小: 693MB
CLIP文本
• 模型: CLIP文本
• 文件: gemma_3_12B_it_fp4_mixed.safetensors + ltx-2.3_text_projection_bf16.safetensors
• 大小: 共~7.5GB
人声分离
• 模型: 人声分离
• 文件: MelBandRoformer_fp16.safetensors
• 大小: ~
- CLIP 放在 device=cpu,省 6.8GB VRAM

工作流 & 参数核心节点链:
LoadImage(4000×6000)
→ ImageScaleByAspectRatio V2(最长边1280, round64) → 896×1280
→ LTXVImgToVideoInplace(strength=0.7)
→ LTXVConcatAVLatent(视频latent + 音频latent)LoadAudio(spk_1778665696.wav, 22kHz单声道)
→ TrimAudioDuration(4.0s)
→ [LazySwitch1way] → MelBandRoFormer(人声分离)
→ LTXVAudioVAEEncode → SetLatentNoiseMask合并后 → SamplerCustomAdvanced(8步) → LTXVSeparateAVLatent
→ VAE解码 → VHS_VideoCombine(30fps, h264, crf=19)
关键参数:Int(98)=duration
• 参数: Int(98)=duration
• 值: 4(当前)
Int(104)=fps
• 参数: Int(104)=fps
• 值: 30
帧数公式
• 参数: 帧数公式
• 值: a×b+1 = 4×30+1 = 121帧
时长
• 参数: 时长
• 值: 4.033秒
分辨率参数: 分辨率
• 值: 896×1280(2:3竖屏)
采样器
• 参数: 采样器
• 值: euler_ancestral_cfg_pp
步数
• 参数: 步数
• 值: 8步
CFG
• 参数: CFG
• 值: 1.0
NAG
• 参数: NAG
• 值: scale=11, alpha=0.25, tau=2.5
Sigmas
• 参数: Sigmas
• 值: 1.0, 0.99375, 0.9875, 0.98125, 0.975, 0.909375, 0.725, 0.421875, 0.0
Prompt
• 参数: Prompt
• 值: "美女对着镜头说话"
VHS pingpong
• 参数: VHS pingpong
- CLIP 放在 device=cpu,省 6.8GB VRAM
-
今天把数字人也弄好了,原工作流https://www.runninghub.cn/post/2030978580729040897/?inviteCode=3vhsgtbl
为了适配7900xtx的显存,换了LTX-2.3-22B-distilled-1.1-Q3_K_M.gguf模型,clip用CPU来计算
不过感觉有点慢4秒钟,40分钟,还得优化
LTX 2.3 数字人对口型 — 首跑成功总结
软硬件环境CPU
• 项目: CPU
• 详情: Intel i5-12400F
GPU
• 项目: GPU
• 详情: AMD Radeon RX 7900 XTX(24.6GB VRAM)
内存
• 项目: 内存
• 详情: 45GB DDR4
系统
• 项目: 系统
• 详情: Linux 7.0.0-15-generic
深度学习
• 项目: 深度学习
• 详情: PyTorch 2.12.0 + ROCm 7.2(gfx1100)
ComfyUI
• 项目: ComfyUI
• 详情: v0.20.1 + frontend 1.42.15
启动参数
• 项目: 启动参数
• 详情: --force-upcast-attention --preview-method none
模型UNet
• 模型: UNet
• 文件: LTX-2.3-22B-distilled-1.1-Q3_K_M.gguf
• 大小: ~14GB
Video VAE
• 模型: Video VAE
• 文件: LTX23_video_vae_bf16.safetensors
• 大小: 1.4GB
Audio VAE
• 模型: Audio VAE
• 文件: LTX23_audio_vae_bf16.safetensors
• 大小: 693MB
CLIP文本
• 模型: CLIP文本
• 文件: gemma_3_12B_it_fp4_mixed.safetensors + ltx-2.3_text_projection_bf16.safetensors
• 大小: 共~7.5GB
人声分离
• 模型: 人声分离
• 文件: MelBandRoformer_fp16.safetensors
• 大小: ~
- CLIP 放在 device=cpu,省 6.8GB VRAM

工作流 & 参数核心节点链:
LoadImage(4000×6000)
→ ImageScaleByAspectRatio V2(最长边1280, round64) → 896×1280
→ LTXVImgToVideoInplace(strength=0.7)
→ LTXVConcatAVLatent(视频latent + 音频latent)LoadAudio(spk_1778665696.wav, 22kHz单声道)
→ TrimAudioDuration(4.0s)
→ [LazySwitch1way] → MelBandRoFormer(人声分离)
→ LTXVAudioVAEEncode → SetLatentNoiseMask合并后 → SamplerCustomAdvanced(8步) → LTXVSeparateAVLatent
→ VAE解码 → VHS_VideoCombine(30fps, h264, crf=19)
关键参数:Int(98)=duration
• 参数: Int(98)=duration
• 值: 4(当前)
Int(104)=fps
• 参数: Int(104)=fps
• 值: 30
帧数公式
• 参数: 帧数公式
• 值: a×b+1 = 4×30+1 = 121帧
时长
• 参数: 时长
• 值: 4.033秒
分辨率参数: 分辨率
• 值: 896×1280(2:3竖屏)
采样器
• 参数: 采样器
• 值: euler_ancestral_cfg_pp
步数
• 参数: 步数
• 值: 8步
CFG
• 参数: CFG
• 值: 1.0
NAG
• 参数: NAG
• 值: scale=11, alpha=0.25, tau=2.5
Sigmas
• 参数: Sigmas
• 值: 1.0, 0.99375, 0.9875, 0.98125, 0.975, 0.909375, 0.725, 0.421875, 0.0
Prompt
• 参数: Prompt
• 值: "美女对着镜头说话"
VHS pingpong
• 参数: VHS pingpong
- CLIP 放在 device=cpu,省 6.8GB VRAM
-
系统 取消固定了该主题
-
交作业:全程让hermes部署,用的deepseek ,

-