[疑问] ComfyUI 硬件显存容量有多重要？

kaifan

最近用原生 ComfyUI 测试了最新的 LTX 视频生成。配置是 22B FP8 模型（因为显存不够，走的是 Dynamic Loading 动态加载），纯 PyTorch Attention 架构，没开 sageattention 或 fa3。

生成参数：官方例子workflow 720p 24fps 10秒视频（共240帧）。同时双卡双comfyui instance连续跑了15个小时，清除缓存与模型之后实测每张卡生成单个视频的时间和功耗如下：

5060 Ti：约 380 秒（平均负载 120W/200W，感觉撞了显存带宽墙）

4070：约 340 秒（平均负载 180W/200W）缓存模型和execution cache后速度约230s

我把这个结果喂给 Gemini，它说4090 的基准成绩（75 到 90 秒）但我没有4090所以没办法验证。但是按照这个计算

算力缩放：4090 有 512 个 Tensor Core，4070 有 184 个，算力核心比差距约 2.84 倍。按 4090 最慢 90 秒算纯算力时间：90秒 * 2.84 = 255.6 秒。

显存带宽损耗（带宽税）：用Pytorch attention，4070显存带宽比4090少一半假设这个带来额外 25% 左右的时间损耗。

最终估算：255.6 秒 * 1.25 约等于 320 秒。

这个估算出来的 320 秒和我的实测 340 秒非常接近。我想请教一下懂底层的大佬：

两张卡都是PCIe 4.0x4 8G/s duplex 在跑sampling的时候看nvtop大约5-10秒一次从内存load一次，并没有想象中那么频繁，假设这个4090的数据属实，假设有足够的内存，如果主板支持3卡，是不是3个4070大概也能达到4090的生成速度？

用的workflow：

video_ltx2_3_t2v.json

terry

ComfyUI不支持多卡，LTX Unet生成Latent文件必须单卡连续显存。你测试的结果我无从验证，我没有5060TI，但我有4060Ti，两张卡性能差距不大，怎么说了，4090的速度大概是4060Ti的10倍以上都不止。我用的是刘悦的工作流测试的。

kaifan

谢谢回答

ComfyUI不支持多卡，LTX Unet生成Latent文件必须单卡连续显存

对，我是一个卡一个comfyui一起跑的。我的理解是latent space肯定一直在gpu上只是weight是dynamic loading的。三个卡每个300秒就是一个视频100秒

4090的速度大概是4060Ti的10倍以上都不止

这个有可能是4060ti的显存带宽导致的 200多GB/s 跟4090的差不多1TB/s应该没有太大可比性。我的5060ti其实超频了和4070的运算能力差不太多，但是估计因为显存带宽不够功率怎么也跑不上去，只能跑到60％的满功耗。4070显存超频之后倒是能跑到80-90％功耗大概显存带宽有550GB/s
好奇gemini说的4090baseline准不准，24G以上显存太难买了但是12G显存的容易很多

抡锤者

[疑问] ComfyUI 硬件显存容量有多重要？