跳转至内容
  • 版块
  • 最新
  • 标签
  • 热门
  • 用户
  • 群组
皮肤
  • 浅色
  • Brite
  • Cerulean
  • Cosmo
  • Flatly
  • Journal
  • Litera
  • Lumen
  • Lux
  • Materia
  • Minty
  • Morph
  • Pulse
  • Sandstone
  • Simplex
  • Sketchy
  • Spacelab
  • United
  • Yeti
  • Zephyr
  • 深色
  • Cyborg
  • Darkly
  • Quartz
  • Slate
  • Solar
  • Superhero
  • Vapor

  • 默认(不使用皮肤)
  • 不使用皮肤
折叠
品牌标识

抡锤者

  1. 主页
  2. AI硬件
  3. [疑问] ComfyUI 硬件显存容量有多重要?

[疑问] ComfyUI 硬件显存容量有多重要?

已定时 已固定 已锁定 已移动 AI硬件
3 帖子 2 发布者 92 浏览
  • 从旧到新
  • 从新到旧
  • 最多赞同
回复
  • 在新帖中回复
登录后回复
此主题已被删除。只有拥有主题管理权限的用户可以查看。
  • K 离线
    K 离线
    kaifan
    编写于 最后由 kaifan 编辑
    #1

    最近用原生 ComfyUI 测试了最新的 LTX 视频生成。配置是 22B FP8 模型(因为显存不够,走的是 Dynamic Loading 动态加载),纯 PyTorch Attention 架构,没开 sageattention 或 fa3。

    生成参数:官方例子workflow 720p 24fps 10秒视频(共240帧)。同时双卡双comfyui instance连续跑了15个小时,清除缓存与模型之后实测每张卡生成单个视频的时间和功耗如下:

    5060 Ti:约 380 秒(平均负载 120W/200W,感觉撞了显存带宽墙)

    4070:约 340 秒(平均负载 180W/200W)缓存模型和execution cache后速度约230s

    我把这个结果喂给 Gemini,它说4090 的基准成绩(75 到 90 秒)但我没有4090所以没办法验证。但是按照这个计算

    算力缩放:4090 有 512 个 Tensor Core,4070 有 184 个,算力核心比差距约 2.84 倍。按 4090 最慢 90 秒算纯算力时间:90秒 * 2.84 = 255.6 秒。

    显存带宽损耗(带宽税):用Pytorch attention,4070显存带宽比4090少一半 假设这个带来额外 25% 左右的时间损耗。

    最终估算:255.6 秒 * 1.25 约等于 320 秒。

    这个估算出来的 320 秒和我的实测 340 秒非常接近。我想请教一下懂底层的大佬:

    两张卡都是PCIe 4.0x4 8G/s duplex 在跑sampling的时候看nvtop大约5-10秒一次从内存load一次,并没有想象中那么频繁,假设这个4090的数据属实,假设有足够的内存,如果主板支持3卡,是不是3个4070大概也能达到4090的生成速度?

    用的workflow:

    video_ltx2_3_t2v.json

    1 条回复 最后回复
    0
    • terryT 离线
      terryT 离线
      terry
      编写于 最后由 编辑
      #2

      ComfyUI不支持多卡,LTX Unet生成Latent文件必须单卡连续显存。你测试的结果我无从验证,我没有5060TI,但我有4060Ti,两张卡性能差距不大,怎么说了,4090的速度大概是4060Ti的10倍以上都不止。我用的是刘悦的工作流测试的。

      油管:https://www.youtube.com/@抡锤者

      1 条回复 最后回复
      0
      • K 离线
        K 离线
        kaifan
        编写于 最后由 kaifan 编辑
        #3

        谢谢回答

        ComfyUI不支持多卡,LTX Unet生成Latent文件必须单卡连续显存

        对,我是一个卡一个comfyui一起跑的。我的理解是latent space肯定一直在gpu上只是weight是dynamic loading的。三个卡每个300秒就是一个视频100秒

        4090的速度大概是4060Ti的10倍以上都不止

        这个有可能是4060ti的显存带宽导致的 200多GB/s 跟4090的差不多1TB/s应该没有太大可比性。我的5060ti其实超频了和4070的运算能力差不太多,但是估计因为显存带宽不够功率怎么也跑不上去,只能跑到60%的满功耗。4070显存超频之后倒是能跑到80-90%功耗 大概显存带宽有550GB/s
        好奇gemini说的4090baseline准不准,24G以上显存太难买了但是12G显存的容易很多

        1 条回复 最后回复
        0

        你好!看起来您对这段对话很感兴趣,但您还没有一个账号。

        厌倦了每次访问都刷到同样的帖子?您注册账号后,您每次返回时都能精准定位到您上次浏览的位置,并可选择接收新回复通知(通过邮件或推送通知)。您还能收藏书签、为帖子顶,向社区成员表达您的欣赏。

        有了你的建议,这篇帖子会更精彩哦 💗

        注册 登录
        回复
        • 在新帖中回复
        登录后回复
        • 从旧到新
        • 从新到旧
        • 最多赞同


        • 登录

        • 没有帐号? 注册

        • 登录或注册以进行搜索。
        • 第一个帖子
          最后一个帖子
        0
        • 版块
        • 最新
        • 标签
        • 热门
        • 用户
        • 群组