<?xml version="1.0" encoding="UTF-8"?><rss xmlns:dc="http://purl.org/dc/elements/1.1/" xmlns:content="http://purl.org/rss/1.0/modules/content/" xmlns:atom="http://www.w3.org/2005/Atom" version="2.0"><channel><title><![CDATA[[疑问] ComfyUI 硬件显存容量有多重要？]]></title><description><![CDATA[<p dir="auto">最近用原生 ComfyUI 测试了最新的 LTX 视频生成。配置是 22B FP8 模型（因为显存不够，走的是 Dynamic Loading 动态加载），纯 PyTorch Attention 架构，没开 sageattention 或 fa3。</p>
<p dir="auto">生成参数：官方例子workflow 720p 24fps 10秒视频（共240帧）。同时双卡双comfyui instance连续跑了15个小时，清除缓存与模型之后实测每张卡生成单个视频的时间和功耗如下：</p>
<p dir="auto">5060 Ti：约 380 秒（平均负载 120W/200W，感觉撞了显存带宽墙）</p>
<p dir="auto">4070：约 340 秒（平均负载 180W/200W）缓存模型和execution cache后速度约230s</p>
<p dir="auto">我把这个结果喂给 Gemini，它说4090 的基准成绩（75 到 90 秒）但我没有4090所以没办法验证。但是按照这个计算</p>
<p dir="auto">算力缩放：4090 有 512 个 Tensor Core，4070 有 184 个，算力核心比差距约 2.84 倍。按 4090 最慢 90 秒算纯算力时间：90秒 * 2.84 = 255.6 秒。</p>
<p dir="auto">显存带宽损耗（带宽税）：用Pytorch attention，4070显存带宽比4090少一半 假设这个带来额外 25% 左右的时间损耗。</p>
<p dir="auto">最终估算：255.6 秒 * 1.25 约等于 320 秒。</p>
<p dir="auto">这个估算出来的 320 秒和我的实测 340 秒非常接近。我想请教一下懂底层的大佬：</p>
<p dir="auto">两张卡都是PCIe 4.0x4 8G/s duplex 在跑sampling的时候看nvtop大约5-10秒一次从内存load一次，并没有想象中那么频繁，假设这个4090的数据属实，假设有足够的内存，如果主板支持3卡，是不是3个4070大概也能达到4090的生成速度？</p>
<p dir="auto">用的workflow：</p>
<p dir="auto"><a href="https://upload.lcz.me/uploads/9cbdb063-1f25-4658-8235-c1e584c62e65.json" rel="nofollow ugc">video_ltx2_3_t2v.json</a></p>
]]></description><link>https://lcz.me/topic/393/疑问-comfyui-硬件显存容量有多重要</link><generator>RSS for Node</generator><lastBuildDate>Sat, 06 Jun 2026 06:15:44 GMT</lastBuildDate><atom:link href="https://lcz.me/topic/393.rss" rel="self" type="application/rss+xml"/><pubDate>Tue, 02 Jun 2026 11:39:52 GMT</pubDate><ttl>60</ttl><item><title><![CDATA[Reply to [疑问] ComfyUI 硬件显存容量有多重要？ on Tue, 02 Jun 2026 13:34:37 GMT]]></title><description><![CDATA[<p dir="auto">谢谢回答</p>
<blockquote>
<p dir="auto">ComfyUI不支持多卡，LTX Unet生成Latent文件必须单卡连续显存</p>
</blockquote>
<p dir="auto">对，我是一个卡一个comfyui一起跑的。我的理解是latent space肯定一直在gpu上只是weight是dynamic loading的。三个卡每个300秒就是一个视频100秒</p>
<blockquote>
<p dir="auto">4090的速度大概是4060Ti的10倍以上都不止</p>
</blockquote>
<p dir="auto">这个有可能是4060ti的显存带宽导致的 200多GB/s 跟4090的差不多1TB/s应该没有太大可比性。我的5060ti其实超频了和4070的运算能力差不太多，但是估计因为显存带宽不够功率怎么也跑不上去，只能跑到60％的满功耗。4070显存超频之后倒是能跑到80-90％功耗 大概显存带宽有550GB/s<br />
好奇gemini说的4090baseline准不准，24G以上显存太难买了但是12G显存的容易很多</p>
]]></description><link>https://lcz.me/post/4671</link><guid isPermaLink="true">https://lcz.me/post/4671</guid><dc:creator><![CDATA[kaifan]]></dc:creator><pubDate>Tue, 02 Jun 2026 13:34:37 GMT</pubDate></item><item><title><![CDATA[Reply to [疑问] ComfyUI 硬件显存容量有多重要？ on Tue, 02 Jun 2026 13:01:35 GMT]]></title><description><![CDATA[<p dir="auto">ComfyUI不支持多卡，LTX Unet生成Latent文件必须单卡连续显存。你测试的结果我无从验证，我没有5060TI，但我有4060Ti，两张卡性能差距不大，怎么说了，4090的速度大概是4060Ti的10倍以上都不止。我用的是刘悦的工作流测试的。</p>
]]></description><link>https://lcz.me/post/4665</link><guid isPermaLink="true">https://lcz.me/post/4665</guid><dc:creator><![CDATA[terry]]></dc:creator><pubDate>Tue, 02 Jun 2026 13:01:35 GMT</pubDate></item></channel></rss>