跳转至内容
  • 版块
  • 最新
  • 标签
  • 热门
  • 用户
  • 群组
皮肤
  • 浅色
  • Brite
  • Cerulean
  • Cosmo
  • Flatly
  • Journal
  • Litera
  • Lumen
  • Lux
  • Materia
  • Minty
  • Morph
  • Pulse
  • Sandstone
  • Simplex
  • Sketchy
  • Spacelab
  • United
  • Yeti
  • Zephyr
  • 深色
  • Cyborg
  • Darkly
  • Quartz
  • Slate
  • Solar
  • Superhero
  • Vapor

  • 默认(不使用皮肤)
  • 不使用皮肤
折叠
品牌标识

抡锤者

W

weidong

@weidong
关于
帖子
12
主题
3
分享
0
群组
0
粉丝
0
关注
0

帖子

最新 最佳 有争议的

  • ubuntu26.04下7900xtx跑comfyui工作流阶段总结
    W weidong

    走了些弯路,折腾了一段时间wan模型,听锤哥的果断换了ltx,目前flux和ltx2.3还有数字人都跑通了,数字人是下载刘悦的在本地修改后跑通的,效果还不错。

    ComfyUI 工作流成果总结

    最后更新:2026-05-18


    硬件环境 Hardware

    组件 规格
    CPU Intel Core i5-12400F (12核)
    内存 48GB (MemoryMax,)
    GPU AMD Radeon RX 7900 XTX (24GB VRAM)
    系统盘 Kingston NV2 1TB NVMe (279G分区, 39G余量)
    外置盘 zyz盘 448GB exfat (94%满, 已挂载)
    ROCm ROCm 7.2
    PyTorch 2.12.0+rocm7.2

    软件环境 Software

    组件 版本/配置
    OS Linux 7.0.0-15-generic
    ComfyUI v0.20.1+ (API + 浏览器)
    ComfyUI 端口 8188 (--listen 0.0.0.0)
    启动参数 --disable-async-offload (不加--lowvram)
    环境变量 TORCH_ROCM_AOTRITON_ENABLE_EXPERIMENTAL=0

    工作流总览

    共 5 个工作流,全部存在 /root/ComfyUI/workflows_hermes/

    1. Flux1.dev-fp8 文生图

    文件: flux1_t2i.json

    模型与位置:

    模型 类型 大小 位置
    flux1-dev-fp8.safetensors checkpoint (模型+CLIP+VAE) 17GB /root/ComfyUI/models/checkpoints/

    参数设置:

    • 分辨率: 1024×1024
    • 采样器: euler
    • 调度器: normal
    • 步数: 20
    • CFG: 3.5
    • 去噪: 1.0

    节点结构: CheckpointLoaderSimple → CLIPTextEncode×2 + EmptyLatentImage → KSampler → VAEDecode → SaveImage


    2. Flux2 Klein 4B 文生图

    文件: flux2_t2i.json

    模型与位置:

    模型 类型 大小 位置
    flux-2-klein-4b.safetensors U-Net (diffusion model) 7.3GB /root/ComfyUI/models/diffusion_models/
    qwen_3_4b.safetensors CLIP/T5文本编码器 7.5GB /root/ComfyUI/models/text_encoders/
    flux2-vae.safetensors VAE解码器 321MB /root/ComfyUI/models/vae/

    参数设置:

    • 分辨率: 1024×1024
    • 采样器: euler
    • 调度器: simple
    • 步数: 20
    • CFG: 3.5
    • 去噪: 1.0

    节点结构: UNETLoader + CLIPLoader(type=flux2) + VAELoader → CLIPTextEncode×2 + EmptyLatentImage → KSampler → VAEDecode → SaveImage

    注意: 文本编码器必须用 qwen_3_4b.safetensors + CLIPLoader(type="flux2")。不要用DualCLIPLoader或UMT5,那会报错。


    3. LTX 2.3 文生视频 Text-to-Video

    文件: ltx23_t2v.json

    模型与位置:

    模型 类型 大小 位置
    ltx-2.3-22b-distilled-1.1-Q3_K_M.gguf U-Net GGUF 9.9GB /root/ComfyUI/models/unet/ 本地
    gemma-3-12b-it-Q4_K_M.gguf CLIP文本编码器 GGUF 6.8GB /root/ComfyUI/models/clip/ 本地
    ltx-2.3_text_projection_bf16.safetensors 文本投影 75B /root/ComfyUI/models/clip/ (symlink)
    LTX23_video_vae_bf16.safetensors VAE 1.4GB /root/ComfyUI/models/vae/

    参数设置:

    • 分辨率: 544×960
    • 帧数: 49 (约2秒)
    • 帧率: 24fps
    • 采样器: euler
    • 步数: 8
    • CFG: 1.0
    • max_shift: 2.05, base_shift: 0.95
    • VAE分块: 4×4 tiles, overlap=2
    • 输出: MP4 H.264

    节点结构: UnetLoaderGGUF + DualCLIPLoaderGGUF(type=ltxv) + VAELoader → EmptyLTXVLatentVideo → CLIPTextEncode×2 → LTXVConditioning → LTXVScheduler → CFGGuider + RandomNoise + KSamplerSelect → SamplerCustomAdvanced → LTXVCropGuides → LTXVTiledVAEDecode → VHS_VideoCombine


    4. LTX 2.3 图生视频 Image-to-Video

    文件: ltx23_i2v.json

    模型与位置 (同T2V基础上增加):

    模型 类型 大小 位置
    同上 +
    ltx-2-19b-lora-camera-control-static.safetensors LoRA 2.1GB /root/ComfyUI/models/loras/ 本地

    参数设置:

    • 分辨率: 544×960
    • 帧数: 49 (约2秒)
    • 帧率: 24fps
    • 采样器: euler, 8步
    • CFG: 1.0
    • 静态相机LoRA: strength=0.8
    • Inplace注入: strength=1.0
    • 输入: your_photo.png (自动resize到544×960)

    节点结构: UnetLoaderGGUF + DualCLIPLoaderGGUF → LoraLoaderModelOnly + LoadImage → ImageResizeKJv2 + EmptyLTXVLatentVideo → LTXVImgToVideoInplace → (同T2V采样→解码→合成)


    5. LTX 2.3 数字人 LipSync (图+音频→视频)

    文件: ltx23_lipsync_digitalhuman.json

    模型与位置 (同I2V基础上增加):

    模型 类型 大小 位置
    ltx23_q4ks.gguf (LTX-2.3-distilled-Q4_K_S.gguf) U-Net GGUF 16GB /root/ComfyUI/models/unet/ 软链→zyz盘
    MelBandRoformer_fp16.safetensors 音频人声分离 436MB /root/ComfyUI/models/diffusion_models/ 软链→MelBandRoformer/
    其他模型同I2V

    参数设置:

    • 分辨率: 544×960
    • 帧数: 73 (约3秒)
    • 帧率: 24fps
    • 采样器: euler, 12步
    • CFG: 1.0
    • 静态相机LoRA: strength=0.8
    • 输入: your_photo.png + your_audio.wav
    • 音频处理: MelBandRoFormer 分离人声 → VHS_VideoCombine.audio 直接合并
    • 音频时长裁剪: 3.0秒 (匹配73帧@24fps)

    重要: 音频不走latent注入(LTXVAudioVAEEncode输出NestedTensor不兼容GGUF),而是走MelBandRoFormer分离后直拼。VHS_VideoCombine的pingpong为必填参数,缺了会导致静默失败。


    VRAM占用估算

    工作流 模型 总VRAM 可用
    Flux1.dev-fp8 17GB checkpoint ~17GB ✅ 余~7GB
    Flux2 Klein 4B 7.3G+7.5G+321M ~15GB ✅ 余~9GB
    LTX T2V (Q3_K_M) 9.9G+6.8G ~17GB ✅ 余~7GB
    LTX I2V (Q3_K_M) 9.9G+6.8G+2.1G ~19GB ✅ 余~5GB
    LTX 数字人 (Q4_K_S) 16G+6.8G+2.1G+436M ~23GB ⚠️ 余~1GB

    Q4_K_S 数字人峰值 ~23GB 非常紧,建议先用 Q3_K_M 测试再换 Q4_K_S。

    最大视频时长 (480p 720×480)

    将latent从544×960改为720×480,latent缩小~35%:

    • Q3_K_M: ~12秒 (290帧)
    • Q4_K_S: ~8秒 (193帧)

    已知问题

    1. 动作迁移 (ICLoRA): 需要原生FP8模型22GB,24GB VRAM装不下。ICLoRA不兼容GGUF路径,当前无法实现完整的动作迁移。
    2. 音频latent注入: LTXVAudioVAEEncode输出NestedTensor,与GGUF U-Net不兼容。已绕过走MeldBandRoFormer直拼。
    3. VHS_VideoCombine: pingpong必填,缺了静默失败。LTXVSeparateAVLatent无音频时访问latents[1]会IndexError——I2V应跳过此节点。
    4. Flux2文本编码器: 必须用 qwen_3_4b.safetensors + CLIPLoader(type="flux2")。不能用DualCLIPLoader。
    5. zyz盘依赖: 数字人工作流的Q4_K_S模型在zyz盘软链,拔盘后工作流不可用。Q3_K_M版在本地可独立运行。

    AI音视频画图

  • 经验分享,7900xtx折腾历程
    W weidong

    看了锤哥的视频,果断把5060ti16G卖了,贴了几百块换了7900xtx,折腾comfyui,安装了最新的ubuntu26.04,安装上hermes,就让它自己安装、调试comfyui,开始不太顺利,rocm用的是6.X,老是出现内存崩溃,allocator latency碎片化,也各种查ai,我是每个问题问gemini和chatgpt、deepseek三个ai,这次感觉GPT最不靠谱,它们一开始都认为我软件太新,GPT还建议我用回24的ubuntu,最后还是gemini建议试试rocm7.X,然后把pytorch也升级到2.11,采用轻量小模型,没想到很顺利搞定了,生图生视频都稳定没问题。下一步计划提升下质量

    AI硬件
  • 登录

  • 没有帐号? 注册

  • 登录或注册以进行搜索。
  • 第一个帖子
    最后一个帖子
0
  • 版块
  • 最新
  • 标签
  • 热门
  • 用户
  • 群组