[疑问] ComfyUI 硬件显存容量有多重要?
-
最近用原生 ComfyUI 测试了最新的 LTX 视频生成。配置是 22B FP8 模型(因为显存不够,走的是 Dynamic Loading 动态加载),纯 PyTorch Attention 架构,没开 sageattention 或 fa3。
生成参数:官方例子workflow 720p 24fps 10秒视频(共240帧)。同时双卡双comfyui instance连续跑了15个小时,清除缓存与模型之后实测每张卡生成单个视频的时间和功耗如下:
5060 Ti:约 380 秒(平均负载 120W/200W,感觉撞了显存带宽墙)
4070:约 340 秒(平均负载 180W/200W)缓存模型和execution cache后速度约230s
我把这个结果喂给 Gemini,它说4090 的基准成绩(75 到 90 秒)但我没有4090所以没办法验证。但是按照这个计算
算力缩放:4090 有 512 个 Tensor Core,4070 有 184 个,算力核心比差距约 2.84 倍。按 4090 最慢 90 秒算纯算力时间:90秒 * 2.84 = 255.6 秒。
显存带宽损耗(带宽税):用Pytorch attention,4070显存带宽比4090少一半 假设这个带来额外 25% 左右的时间损耗。
最终估算:255.6 秒 * 1.25 约等于 320 秒。
这个估算出来的 320 秒和我的实测 340 秒非常接近。我想请教一下懂底层的大佬:
两张卡都是PCIe 4.0x4 8G/s duplex 在跑sampling的时候看nvtop大约5-10秒一次从内存load一次,并没有想象中那么频繁,假设这个4090的数据属实,假设有足够的内存,如果主板支持3卡,是不是3个4070大概也能达到4090的生成速度?
用的workflow:
-
谢谢回答
ComfyUI不支持多卡,LTX Unet生成Latent文件必须单卡连续显存
对,我是一个卡一个comfyui一起跑的。我的理解是latent space肯定一直在gpu上只是weight是dynamic loading的。三个卡每个300秒就是一个视频100秒
4090的速度大概是4060Ti的10倍以上都不止
这个有可能是4060ti的显存带宽导致的 200多GB/s 跟4090的差不多1TB/s应该没有太大可比性。我的5060ti其实超频了和4070的运算能力差不太多,但是估计因为显存带宽不够功率怎么也跑不上去,只能跑到60%的满功耗。4070显存超频之后倒是能跑到80-90%功耗 大概显存带宽有550GB/s
好奇gemini说的4090baseline准不准,24G以上显存太难买了但是12G显存的容易很多