<?xml version="1.0" encoding="UTF-8"?><rss xmlns:dc="http://purl.org/dc/elements/1.1/" xmlns:content="http://purl.org/rss/1.0/modules/content/" xmlns:atom="http://www.w3.org/2005/Atom" version="2.0"><channel><title><![CDATA[请教pro6000同时跑comfyui视频和hermes+qwen3.6-27B-Q4任务会部会卡？]]></title><description><![CDATA[<p dir="auto">pro6000 虽然有96gb显存，常规部署vllm+qwen3.6-27B-FP8  上下文128k  没怎么优化，显存占用大概89GB，再部署comfyui 跑视频，就爆显存了；如果改为qwen3.6-27B-Q4量化版，256K 上下文才34GB，同时可以部署comfyui音视频；问题来了，请教，同时部署，跑视频的时候，本地模型会不会卡，hermes 做复杂任务的时候会有会有问题，如何有问题，是再部署一台，模型和音视频分开？还是可以再加一块32GB 的显卡，把模型跑再32GB显卡上，comfyui跑在pro6000上？求大神指导！</p>
]]></description><link>https://lcz.me/topic/41/请教pro6000同时跑comfyui视频和hermes-qwen3.6-27b-q4任务会部会卡</link><generator>RSS for Node</generator><lastBuildDate>Wed, 20 May 2026 07:54:07 GMT</lastBuildDate><atom:link href="https://lcz.me/topic/41.rss" rel="self" type="application/rss+xml"/><pubDate>Wed, 06 May 2026 19:21:58 GMT</pubDate><ttl>60</ttl><item><title><![CDATA[Reply to 请教pro6000同时跑comfyui视频和hermes+qwen3.6-27B-Q4任务会部会卡？ on Fri, 15 May 2026 01:37:19 GMT]]></title><description><![CDATA[<p dir="auto">VLLM_ATTENTION_BACKEND=FlashInfer VLLM_PROFILER_ESTIMATE_CUDAGRAPHS=1 python3 -m vllm.entrypoints.openai.api_server <br />
--model /models/qwen/Qwen3.6-27B-FP8 <br />
--trust-remote-code <br />
--max-model-len 102400 <br />
--kv-cache-dtype fp8_e4m3 <br />
--gpu-memory-utilization 0.55 <br />
--enable-chunked-prefill <br />
--enable-prefix-caching <br />
--max-num-batched-tokens 8192 <br />
--max-num-seqs 2 <br />
--speculative-config '{"method": "mtp", "num_speculative_tokens": 3}' <br />
--served-model-name "Qwen-27B-FP8" <br />
--enable-auto-tool-choice <br />
--tool-call-parser qwen3_coder <br />
--reasoning-parser qwen3 <br />
--host 0.0.0.0 <br />
--port 8000</p>
<p dir="auto"><img src="https://upload.lcz.me/uploads/f848e14d-f6a8-4b07-bc00-ae5226fce67c.jpeg" alt="5a4206ad-83a8-4cd9-bae2-68e7c9b1a30c-image.jpeg" class=" img-fluid img-markdown" /></p>
<p dir="auto">我用的这个参数，然后comfyui做的生成视频工作流，研究了一晚上暂时没有崩过，comfyui跑起来的额时候能到40GB左右的样子通常不会超过40GB。vllm我之前设置的0.58也不会崩，后面为了保险降到了0.55；不过我这是100K上下文，暂时就我一个人在用。<br />
不清楚如果后面有并发了会不会崩。</p>
]]></description><link>https://lcz.me/post/1725</link><guid isPermaLink="true">https://lcz.me/post/1725</guid><dc:creator><![CDATA[t68823878]]></dc:creator><pubDate>Fri, 15 May 2026 01:37:19 GMT</pubDate></item><item><title><![CDATA[Reply to 请教pro6000同时跑comfyui视频和hermes+qwen3.6-27B-Q4任务会部会卡？ on Thu, 14 May 2026 12:55:28 GMT]]></title><description><![CDATA[<p dir="auto"><img src="https://upload.lcz.me/uploads/be77e5d8-d02f-47ca-b8d3-e137ef787e4d.jpeg" alt="cad656f9-c545-47fe-bfb9-d09fc297a163-image.jpeg" class=" img-fluid img-markdown" /></p>
]]></description><link>https://lcz.me/post/1588</link><guid isPermaLink="true">https://lcz.me/post/1588</guid><dc:creator><![CDATA[Jay Liao]]></dc:creator><pubDate>Thu, 14 May 2026 12:55:28 GMT</pubDate></item><item><title><![CDATA[Reply to 请教pro6000同时跑comfyui视频和hermes+qwen3.6-27B-Q4任务会部会卡？ on Sun, 10 May 2026 05:03:19 GMT]]></title><description><![CDATA[<p dir="auto"><a class="plugin-mentions-user plugin-mentions-a" href="/user/dalu-fama" aria-label="Profile: Dalu-Fama">@<bdi>Dalu-Fama</bdi></a> 牛逼啊，很有参考价值，下次把Sg-lang跑qwen折腾下，我照抄。</p>
]]></description><link>https://lcz.me/post/715</link><guid isPermaLink="true">https://lcz.me/post/715</guid><dc:creator><![CDATA[terry]]></dc:creator><pubDate>Sun, 10 May 2026 05:03:19 GMT</pubDate></item><item><title><![CDATA[Reply to 请教pro6000同时跑comfyui视频和hermes+qwen3.6-27B-Q4任务会部会卡？ on Sat, 09 May 2026 19:38:53 GMT]]></title><description><![CDATA[<p dir="auto"><a class="plugin-mentions-user plugin-mentions-a" href="/user/benton-yi" aria-label="Profile: benton-yi">@<bdi>benton-yi</bdi></a> 后来我--gpu-memory-utilization 0.7，mtp没设置，256k上下，大概占用70多，虽然NVFP4要小很多，但是感觉还是fp8才是王者，有时候会比deepseek flash版本还要好，重度任务多时候Fp8从来没卡壳过，dp卡过几次，你的优化以及感觉极至了，并发 只有2或者3，多agent感觉还是有点难，我感觉如果要用的爽，极至生产力，不如再加一张4090或者2张ai pro r9700 并行，</p>
]]></description><link>https://lcz.me/post/693</link><guid isPermaLink="true">https://lcz.me/post/693</guid><dc:creator><![CDATA[Dalu Fama]]></dc:creator><pubDate>Sat, 09 May 2026 19:38:53 GMT</pubDate></item><item><title><![CDATA[Reply to 请教pro6000同时跑comfyui视频和hermes+qwen3.6-27B-Q4任务会部会卡？ on Sat, 09 May 2026 19:14:31 GMT]]></title><description><![CDATA[<p dir="auto"><img src="https://lcz.me/assets/plugins/nodebb-plugin-emoji/emoji/android/1f44d.png?v=d348ca29232" class="not-responsive emoji emoji-android emoji--+1" style="height:23px;width:auto;vertical-align:middle" title=":+1:" alt="👍" /> <img src="https://lcz.me/assets/plugins/nodebb-plugin-emoji/emoji/android/1f44d.png?v=d348ca29232" class="not-responsive emoji emoji-android emoji--+1" style="height:23px;width:auto;vertical-align:middle" title=":+1:" alt="👍" /> <a class="plugin-mentions-user plugin-mentions-a" href="/user/benton-yi" aria-label="Profile: benton-yi">@<bdi>benton-yi</bdi></a> 非常感谢大佬分享！<img src="https://lcz.me/assets/plugins/nodebb-plugin-emoji/emoji/android/1f44d.png?v=d348ca29232" class="not-responsive emoji emoji-android emoji--+1" style="height:23px;width:auto;vertical-align:middle" title=":+1:" alt="👍" /> <img src="https://lcz.me/assets/plugins/nodebb-plugin-emoji/emoji/android/1f44d.png?v=d348ca29232" class="not-responsive emoji emoji-android emoji--+1" style="height:23px;width:auto;vertical-align:middle" title=":+1:" alt="👍" /></p>
]]></description><link>https://lcz.me/post/692</link><guid isPermaLink="true">https://lcz.me/post/692</guid><dc:creator><![CDATA[Dalu Fama]]></dc:creator><pubDate>Sat, 09 May 2026 19:14:31 GMT</pubDate></item><item><title><![CDATA[Reply to 请教pro6000同时跑comfyui视频和hermes+qwen3.6-27B-Q4任务会部会卡？ on Sat, 09 May 2026 16:21:48 GMT]]></title><description><![CDATA[<p dir="auto"><img src="https://upload.lcz.me/uploads/d4e4631f-4519-475e-b766-d2168a534a5e.jpeg" alt="fb3aa4a5-1919-4e86-9b4c-8b78fc983f42-image.jpeg" class=" img-fluid img-markdown" /><br />
对了，如果有blackwell架构想要极致省显存想选择NVFP4量化的朋友，别选unsloth的版本（截至5月8号），这个版本没有MTP投机权重文件vLLM下无法开启MTP（SGLang可开因为用的是NextN模块）。下右边这个版本就行。</p>
]]></description><link>https://lcz.me/post/688</link><guid isPermaLink="true">https://lcz.me/post/688</guid><dc:creator><![CDATA[benton yi]]></dc:creator><pubDate>Sat, 09 May 2026 16:21:48 GMT</pubDate></item><item><title><![CDATA[Reply to 请教pro6000同时跑comfyui视频和hermes+qwen3.6-27B-Q4任务会部会卡？ on Sat, 09 May 2026 16:11:35 GMT]]></title><description><![CDATA[<p dir="auto"><a class="plugin-mentions-user plugin-mentions-a" href="/user/dalu-fama" aria-label="Profile: Dalu-Fama">@<bdi>Dalu-Fama</bdi></a> 回你这个显存占用89G的问题，你vLLM启动参数一定没有加 --gpu-memory-utilization 0.50 参数，你不加参数就默认是0.9。划掉你显存的90%给vLLM专用。影响实际显存占用的因素有：<br />
--gpu-memory-utilization 0.50 \       #预设显存池<br />
--max-model-len 131072 \                 #上下文长度<br />
--max-num-seqs 2\                           #最大并发数<br />
实际上我就是跑的FP8量化，MTP投机种子设4的时候显存占用也就52G，用来跑BF16的Qwen-Image-Edit也不会oom。</p>
]]></description><link>https://lcz.me/post/687</link><guid isPermaLink="true">https://lcz.me/post/687</guid><dc:creator><![CDATA[benton yi]]></dc:creator><pubDate>Sat, 09 May 2026 16:11:35 GMT</pubDate></item><item><title><![CDATA[Reply to 请教pro6000同时跑comfyui视频和hermes+qwen3.6-27B-Q4任务会部会卡？ on Sat, 09 May 2026 15:56:53 GMT]]></title><description><![CDATA[<p dir="auto">这个问题也是我这两天一直在折腾的问题，现在已经初步有了个眉目。先说结论：<br />
结论是<strong>可以</strong>，架构是vLLM + qwen3.6-27b-NVFP4（3并行）+ ComfyUI（Qwen-Image-Edit-BF16)<br />
或者vLLM +  qwen3.6-27b-FP8（2并行）+ ComfyUI（Qwen-Image-Edit-FP8)</p>
<p dir="auto">我的提示词是这样的：<br />
我现在要在本地部署vLLM运行qwen3.6-27b来推理Hermes也就是你。在飞书远程工作的同时，还要用到本地的ComfyUI工作流进行文生图或者图改生图，大多是Qwen-Image-2512，少量用到Qwen-Image-Edit，这些模型都在/home/bentonyi/ComfyUI-master/models/unet，你可以自己看。目前的qwen3.6-27b模型情况是有一个NVFP4量化，一个FP8量化。<br />
以上是具体现状，我的底线要求是：<br />
1，任何条件下不能触发把KV Cache放到内存里交换让CPU跑的情况；<br />
2，上下文128k满载、并发2倍冗余以内、mtp种子为4的极端情况下vLLM不得oom；<br />
3，在qwen3.6-27b和comfyUI工作流并行任务期间，假设一旦出现显存吃紧或者占满，崩溃运行失败的只能是comfyUI，vLLM不得受到任何影响（因为我要远程处理，vLLM和hermes必须在线）；<br />
你给我推荐一个建议运行的qwen3.6模型版本，以及相对应vLLM的运行参数（尤其是留足comfyUI工作显存后的推荐并发上限）</p>
<p dir="auto">这是智力密集型的plan类工作，我直接祭出了deepseek-v4-pro连hermes。中间查硬件，查模型，查量化版本以及把量化的详细过程算给我看的过程就省略了，各位可以以自己的实际情况对应的提示词去deepseek在线问。最后hermes给出了最前面的结论。还给我画了显存分配明细：<img src="https://upload.lcz.me/uploads/e0b47da9-bc80-452d-afaa-5b1b1c0a8163.jpeg" alt="9dea92ef-9a6e-4c42-a4b8-b677f650aad0-image.jpeg" class=" img-fluid img-markdown" /> │<br />
而且已经经过底线验证：</p>
<ul>
<li><img src="https://lcz.me/assets/plugins/nodebb-plugin-emoji/emoji/android/2705.png?v=d348ca29232" class="not-responsive emoji emoji-android emoji--white_check_mark" style="height:23px;width:auto;vertical-align:middle" title="✅" alt="✅" /> 不触发 CPU swap — KV Cache 全在 GPU，48 层 SSM 不吃 KV</li>
<li><img src="https://lcz.me/assets/plugins/nodebb-plugin-emoji/emoji/android/2705.png?v=d348ca29232" class="not-responsive emoji emoji-android emoji--white_check_mark" style="height:23px;width:auto;vertical-align:middle" title="✅" alt="✅" /> 128K × 6 并发 × MTP=3 → KV 24 GiB &lt; 预算 30 GiB，不会 OOM</li>
<li><img src="https://lcz.me/assets/plugins/nodebb-plugin-emoji/emoji/android/2705.png?v=d348ca29232" class="not-responsive emoji emoji-android emoji--white_check_mark" style="height:23px;width:auto;vertical-align:middle" title="✅" alt="✅" /> ComfyUI 先崩 — 它的 43 GiB 上限比 vLLM 的 52 GiB 硬限制先到</li>
<li><img src="https://lcz.me/assets/plugins/nodebb-plugin-emoji/emoji/android/2705.png?v=d348ca29232" class="not-responsive emoji emoji-android emoji--white_check_mark" style="height:23px;width:auto;vertical-align:middle" title="✅" alt="✅" /> MTP=4 对本模型的 KV 影响极小（MTP 只有 1 层额外 full_attn，开销 &lt; 100 MiB）</li>
<li><img src="https://lcz.me/assets/plugins/nodebb-plugin-emoji/emoji/android/2705.png?v=d348ca29232" class="not-responsive emoji emoji-android emoji--white_check_mark" style="height:23px;width:auto;vertical-align:middle" title="✅" alt="✅" /> Qwen-Image-Edit BF16 只在切换使用 FP8 版本时可保平安</li>
</ul>
<p dir="auto"><img src="https://upload.lcz.me/uploads/cf01922c-72ce-40f4-9516-7822bd3afdb3.jpeg" alt="99c13cd8-9b3a-4f9b-ae03-75df379e4f79-image.jpeg" class=" img-fluid img-markdown" /><br />
最后这张图是我的实际测试，显存占用和ds说得几乎一模一样。</p>
]]></description><link>https://lcz.me/post/685</link><guid isPermaLink="true">https://lcz.me/post/685</guid><dc:creator><![CDATA[benton yi]]></dc:creator><pubDate>Sat, 09 May 2026 15:56:53 GMT</pubDate></item><item><title><![CDATA[Reply to 请教pro6000同时跑comfyui视频和hermes+qwen3.6-27B-Q4任务会部会卡？ on Sat, 09 May 2026 14:11:02 GMT]]></title><description><![CDATA[<p dir="auto"><a class="plugin-mentions-user plugin-mentions-a" href="/user/t68823878" aria-label="Profile: t68823878">@<bdi>t68823878</bdi></a> 没问题啊，扛得住，偶尔抢资源而已</p>
]]></description><link>https://lcz.me/post/681</link><guid isPermaLink="true">https://lcz.me/post/681</guid><dc:creator><![CDATA[terry]]></dc:creator><pubDate>Sat, 09 May 2026 14:11:02 GMT</pubDate></item><item><title><![CDATA[Reply to 请教pro6000同时跑comfyui视频和hermes+qwen3.6-27B-Q4任务会部会卡？ on Sat, 09 May 2026 13:31:04 GMT]]></title><description><![CDATA[<p dir="auto">我也是在纠结这个问题，comfyui也不是全天都在跑，闲置的时候就感觉挺浪费的，如果再装一台来分任务感觉又多花了钱。如果用PRO 6000跑comfyui，然后hermes直接接入DEEPSEEK V4的话，这样是不是就舒坦多了，主要是DEEPSEEK费用比较便宜。或者说是跑comfyui的时候hermes就调用DEEPSEEK API，不跑的时候就调用本地QWEN3.6 27B。</p>
]]></description><link>https://lcz.me/post/676</link><guid isPermaLink="true">https://lcz.me/post/676</guid><dc:creator><![CDATA[t68823878]]></dc:creator><pubDate>Sat, 09 May 2026 13:31:04 GMT</pubDate></item><item><title><![CDATA[Reply to 请教pro6000同时跑comfyui视频和hermes+qwen3.6-27B-Q4任务会部会卡？ on Fri, 08 May 2026 03:06:37 GMT]]></title><description><![CDATA[<p dir="auto"><a class="plugin-mentions-user plugin-mentions-a" href="/user/dalu-fama" aria-label="Profile: Dalu-Fama">@<bdi>Dalu-Fama</bdi></a> 每天200个俯卧撑，日撸三次，身体就扛住了，哪天直接送走，也就是一闭眼的事，别那么在乎自己<img src="https://lcz.me/assets/plugins/nodebb-plugin-emoji/emoji/android/1f602.png?v=d348ca29232" class="not-responsive emoji emoji-android emoji--joy" style="height:23px;width:auto;vertical-align:middle" title="😂" alt="😂" /></p>
]]></description><link>https://lcz.me/post/512</link><guid isPermaLink="true">https://lcz.me/post/512</guid><dc:creator><![CDATA[terry]]></dc:creator><pubDate>Fri, 08 May 2026 03:06:37 GMT</pubDate></item><item><title><![CDATA[Reply to 请教pro6000同时跑comfyui视频和hermes+qwen3.6-27B-Q4任务会部会卡？ on Fri, 08 May 2026 03:02:59 GMT]]></title><description><![CDATA[<p dir="auto"><a class="plugin-mentions-user plugin-mentions-a" href="/user/terry" aria-label="Profile: terry">@<bdi>terry</bdi></a> 熬夜的人，阳光晒的少，所以要补充维b和c，自从开始学ai，我也是日夜颠倒，困了就睡，醒了就学，一点不规律，这两天脑子嗡嗡的！</p>
]]></description><link>https://lcz.me/post/511</link><guid isPermaLink="true">https://lcz.me/post/511</guid><dc:creator><![CDATA[Dalu Fama]]></dc:creator><pubDate>Fri, 08 May 2026 03:02:59 GMT</pubDate></item><item><title><![CDATA[Reply to 请教pro6000同时跑comfyui视频和hermes+qwen3.6-27B-Q4任务会部会卡？ on Thu, 07 May 2026 00:33:37 GMT]]></title><description><![CDATA[<p dir="auto">我感冒基本不吃药，那几天难受，但是过几天就好了，这些年没怎么生过大病，但是感冒每年几次，基本没办法躲掉，固定的时间一定会有。</p>
]]></description><link>https://lcz.me/post/382</link><guid isPermaLink="true">https://lcz.me/post/382</guid><dc:creator><![CDATA[terry]]></dc:creator><pubDate>Thu, 07 May 2026 00:33:37 GMT</pubDate></item><item><title><![CDATA[Reply to 请教pro6000同时跑comfyui视频和hermes+qwen3.6-27B-Q4任务会部会卡？ on Wed, 06 May 2026 23:43:07 GMT]]></title><description><![CDATA[<p dir="auto"><a class="plugin-mentions-user plugin-mentions-a" href="/user/terry" aria-label="Profile: terry">@<bdi>terry</bdi></a> 天道经典语录<img src="https://lcz.me/assets/plugins/nodebb-plugin-emoji/emoji/android/1f604.png?v=d348ca29232" class="not-responsive emoji emoji-android emoji--smile" style="height:23px;width:auto;vertical-align:middle" title="😄" alt="😄" /><img src="https://lcz.me/assets/plugins/nodebb-plugin-emoji/emoji/android/1f604.png?v=d348ca29232" class="not-responsive emoji emoji-android emoji--smile" style="height:23px;width:auto;vertical-align:middle" title="😄" alt="😄" />。核心还是要习惯顺应身体规律，要不然身体会造反，吃啥也没用，深度睡眠最好</p>
]]></description><link>https://lcz.me/post/370</link><guid isPermaLink="true">https://lcz.me/post/370</guid><dc:creator><![CDATA[Daniel]]></dc:creator><pubDate>Wed, 06 May 2026 23:43:07 GMT</pubDate></item><item><title><![CDATA[Reply to 请教pro6000同时跑comfyui视频和hermes+qwen3.6-27B-Q4任务会部会卡？ on Wed, 06 May 2026 23:06:47 GMT]]></title><description><![CDATA[<p dir="auto">睡了一夜啊，我是困了立刻睡，自然醒，不困就做事，我并非是熬夜，是没有规律。不要太把自己当回事，也不要太不把自己当回事，就是这个状态。顺其自然</p>
]]></description><link>https://lcz.me/post/367</link><guid isPermaLink="true">https://lcz.me/post/367</guid><dc:creator><![CDATA[terry]]></dc:creator><pubDate>Wed, 06 May 2026 23:06:47 GMT</pubDate></item><item><title><![CDATA[Reply to 请教pro6000同时跑comfyui视频和hermes+qwen3.6-27B-Q4任务会部会卡？ on Wed, 06 May 2026 22:21:54 GMT]]></title><description><![CDATA[<p dir="auto"><a class="plugin-mentions-user plugin-mentions-a" href="/user/terry" aria-label="Profile: terry">@<bdi>terry</bdi></a> 老特还没睡啊，熬夜的人要吃维C和维B。</p>
]]></description><link>https://lcz.me/post/366</link><guid isPermaLink="true">https://lcz.me/post/366</guid><dc:creator><![CDATA[Dalu Fama]]></dc:creator><pubDate>Wed, 06 May 2026 22:21:54 GMT</pubDate></item><item><title><![CDATA[Reply to 请教pro6000同时跑comfyui视频和hermes+qwen3.6-27B-Q4任务会部会卡？ on Wed, 06 May 2026 21:19:03 GMT]]></title><description><![CDATA[<p dir="auto">你跑Q4量化的模型没问题，用VLLM，Llama.cpp都可以。Pro 6000带宽足够应对LLM和ComfyUI同时请求。但是ComfyUI满载的时候，它会疯狂吃吃带宽，这个没办法限制，模型如果在跑hermes这样的 重型任务，会相互抢资源。你查下框架有没有办法限制。</p>
]]></description><link>https://lcz.me/post/361</link><guid isPermaLink="true">https://lcz.me/post/361</guid><dc:creator><![CDATA[terry]]></dc:creator><pubDate>Wed, 06 May 2026 21:19:03 GMT</pubDate></item></channel></rss>