<?xml version="1.0" encoding="UTF-8"?><rss xmlns:dc="http://purl.org/dc/elements/1.1/" xmlns:content="http://purl.org/rss/1.0/modules/content/" xmlns:atom="http://www.w3.org/2005/Atom" version="2.0"><channel><title><![CDATA[有没有3090或以上，24G显存的兄弟，关于QWEN 27B DFLASH加速]]></title><description><![CDATA[<p dir="auto">有兄弟 试过这个人的GITHUB吗?  <a href="https://github.com/Luce-Org/lucebox-hub" rel="nofollow ugc">https://github.com/Luce-Org/lucebox-hub</a> 他号称QWEN 3.5 27B Q_4_KM可以在RTX 3090上面(限制220瓦功耗)  跑上130. 但是3.6的草稿模型还在训练中, 我今天试了大概6-7小时了,就是配不出来.我的是华硕RTX 3090 24G,跑QWEN 3.5 9B是正常速度. 油管上也有1-2个人发了视频. 我就是跑不起来.我是让hermes + DEEPSEEK V4 PRO 帮我编译,配置的. 就是不知道问题出在哪里. 好沮丧.  让hermes总结出来,几乎一行一行对,没有哪里有问题.  有时间可以 在你们的硬件上按他的方法跑一下吗?</p>
]]></description><link>https://lcz.me/topic/85/有没有3090或以上-24g显存的兄弟-关于qwen-27b-dflash加速</link><generator>RSS for Node</generator><lastBuildDate>Wed, 20 May 2026 06:58:41 GMT</lastBuildDate><atom:link href="https://lcz.me/topic/85.rss" rel="self" type="application/rss+xml"/><pubDate>Sun, 10 May 2026 12:51:12 GMT</pubDate><ttl>60</ttl><item><title><![CDATA[Reply to 有没有3090或以上，24G显存的兄弟，关于QWEN 27B DFLASH加速 on Wed, 13 May 2026 17:07:18 GMT]]></title><description><![CDATA[<p dir="auto"><a class="plugin-mentions-user plugin-mentions-a" href="/user/pangfat" aria-label="Profile: pangfat">@<bdi>pangfat</bdi></a> <img src="https://upload.lcz.me/uploads/ebceb77c-7927-42ad-9595-269c97215b48.png" alt="128k 38.2 2026-05-14.png" class=" img-fluid img-markdown" /></p>
]]></description><link>https://lcz.me/post/1462</link><guid isPermaLink="true">https://lcz.me/post/1462</guid><dc:creator><![CDATA[韦春花]]></dc:creator><pubDate>Wed, 13 May 2026 17:07:18 GMT</pubDate></item><item><title><![CDATA[Reply to 有没有3090或以上，24G显存的兄弟，关于QWEN 27B DFLASH加速 on Wed, 13 May 2026 16:05:47 GMT]]></title><description><![CDATA[<p dir="auto"><a class="plugin-mentions-user plugin-mentions-a" href="/user/%E9%9F%A6%E6%98%A5%E8%8A%B1" aria-label="Profile: 韦春花">@<bdi>韦春花</bdi></a> <a class="plugin-mentions-user plugin-mentions-a" href="/user/pangfat" aria-label="Profile: pangfat">@<bdi>pangfat</bdi></a> 关于Qwen 27B的dflash加速，补充几个实测经验：</p>
<ol>
<li>
<p dir="auto"><strong>dflash在27B上的效果</strong> — 在24G显存上，dflash的收益主要看你的batch size。如果batch-size=512、ubatch-size=512，dflash开启后token生成阶段的GPU利用率能从60%拉到90%+，TPS提升明显。</p>
</li>
<li>
<p dir="auto"><strong>context size的影响</strong> — 32K context配dflash，prefill阶段会吃掉大量显存，导致生成阶段的可用显存变小。建议用<code>--no-kv-offload</code>把KV cache留在GPU，配合<code>--tensor-split</code>（如果多卡）。</p>
</li>
<li>
<p dir="auto"><strong>跟MTP的配合</strong> — 如果同时开MTP（speculative decoding），dflash的收益会被部分稀释，因为MTP本身就在压榨算力。实测在27B上先开dflash再开MTP，总TPS提升约15-20%，不如单独开dflash的25-30%。</p>
</li>
<li>
<p dir="auto"><strong>推荐的起手配置</strong>（24G单卡）：</p>
</li>
</ol>
<pre><code>./llama-cli -m qwen3.6-27b-q4_k_m.gguf \
  --dflash \
  --batch-size 512 --ubatch-size 512 \
  --ctx-size 24576 \
  --no-kv-offload
</code></pre>
<p dir="auto">留8K的context给dflash做speculative space，32K context全开的话容易OOM。</p>
]]></description><link>https://lcz.me/post/1445</link><guid isPermaLink="true">https://lcz.me/post/1445</guid><dc:creator><![CDATA[Xiaote]]></dc:creator><pubDate>Wed, 13 May 2026 16:05:47 GMT</pubDate></item><item><title><![CDATA[Reply to 有没有3090或以上，24G显存的兄弟，关于QWEN 27B DFLASH加速 on Wed, 13 May 2026 16:00:30 GMT]]></title><description><![CDATA[<p dir="auto"><a class="plugin-mentions-user plugin-mentions-a" href="/user/pangfat" aria-label="Profile: pangfat">@<bdi>pangfat</bdi></a> 测速图发到8了，平时32够用<a href="https://upload.lcz.me/uploads/2827341a-0ec1-40b2-a729-ec40e5eaa8ef.png" rel="nofollow ugc">32K 2026-05-13 234122.png</a></p>
]]></description><link>https://lcz.me/post/1441</link><guid isPermaLink="true">https://lcz.me/post/1441</guid><dc:creator><![CDATA[韦春花]]></dc:creator><pubDate>Wed, 13 May 2026 16:00:30 GMT</pubDate></item><item><title><![CDATA[Reply to 有没有3090或以上，24G显存的兄弟，关于QWEN 27B DFLASH加速 on Wed, 13 May 2026 13:40:41 GMT]]></title><description><![CDATA[<p dir="auto"><a class="plugin-mentions-user plugin-mentions-a" href="/user/%E9%9F%A6%E6%98%A5%E8%8A%B1" aria-label="Profile: 韦春花">@<bdi>韦春花</bdi></a> 你这个context是不是太少了？除了测速，还有别的实际意义吗？</p>
]]></description><link>https://lcz.me/post/1414</link><guid isPermaLink="true">https://lcz.me/post/1414</guid><dc:creator><![CDATA[pangfat]]></dc:creator><pubDate>Wed, 13 May 2026 13:40:41 GMT</pubDate></item><item><title><![CDATA[Reply to 有没有3090或以上，24G显存的兄弟，关于QWEN 27B DFLASH加速 on Tue, 12 May 2026 07:13:07 GMT]]></title><description><![CDATA[<p dir="auto">我使用的官版的llama.cpp q8_0 kv缓存 目前tqs在40左右，还没使用dflash、mtp这些。想等成熟一些</p>
]]></description><link>https://lcz.me/post/1190</link><guid isPermaLink="true">https://lcz.me/post/1190</guid><dc:creator><![CDATA[刘海彬]]></dc:creator><pubDate>Tue, 12 May 2026 07:13:07 GMT</pubDate></item><item><title><![CDATA[Reply to 有没有3090或以上，24G显存的兄弟，关于QWEN 27B DFLASH加速 on Tue, 12 May 2026 03:15:46 GMT]]></title><description><![CDATA[<p dir="auto">WIN 11系统，能跑38上下<br />
<img src="https://upload.lcz.me/uploads/0321ca6e-7fe2-479c-beb3-c171b918e5d2.png" alt="38T-S.png" class=" img-fluid img-markdown" /></p>
]]></description><link>https://lcz.me/post/1145</link><guid isPermaLink="true">https://lcz.me/post/1145</guid><dc:creator><![CDATA[韦春花]]></dc:creator><pubDate>Tue, 12 May 2026 03:15:46 GMT</pubDate></item><item><title><![CDATA[Reply to 有没有3090或以上，24G显存的兄弟，关于QWEN 27B DFLASH加速 on Tue, 12 May 2026 03:14:50 GMT]]></title><description><![CDATA[<p dir="auto">@echo off<br />
chcp 65001 &gt;nul<br />
title RTX 3090 27B 真正满血版（38~42 t/s）<br />
cd /d "%~dp0"</p>
<p dir="auto">llama-server ^<br />
-m "Qwen3.6-27B-Q4_K_S.gguf" ^<br />
-c 8192 ^<br />
-ngl 99 ^<br />
-b 512 ^<br />
-t 8 ^<br />
--host 127.0.0.1 ^<br />
--port 8080</p>
<p dir="auto">pause</p>
]]></description><link>https://lcz.me/post/1144</link><guid isPermaLink="true">https://lcz.me/post/1144</guid><dc:creator><![CDATA[韦春花]]></dc:creator><pubDate>Tue, 12 May 2026 03:14:50 GMT</pubDate></item><item><title><![CDATA[Reply to 有没有3090或以上，24G显存的兄弟，关于QWEN 27B DFLASH加速 on Tue, 12 May 2026 03:14:30 GMT]]></title><description><![CDATA[<p dir="auto"><a class="plugin-mentions-user plugin-mentions-a" href="/user/jame-huang" aria-label="Profile: Jame-Huang">@<bdi>Jame-Huang</bdi></a></p>
]]></description><link>https://lcz.me/post/1143</link><guid isPermaLink="true">https://lcz.me/post/1143</guid><dc:creator><![CDATA[韦春花]]></dc:creator><pubDate>Tue, 12 May 2026 03:14:30 GMT</pubDate></item><item><title><![CDATA[Reply to 有没有3090或以上，24G显存的兄弟，关于QWEN 27B DFLASH加速 on Mon, 11 May 2026 05:15:08 GMT]]></title><description><![CDATA[<p dir="auto">nvidia 3090 及其类似的 请看这个作者，优化很多<br />
<a href="https://github.com/noonghunna/club-3090" rel="nofollow ugc">https://github.com/noonghunna/club-3090</a></p>
]]></description><link>https://lcz.me/post/962</link><guid isPermaLink="true">https://lcz.me/post/962</guid><dc:creator><![CDATA[iamvirus]]></dc:creator><pubDate>Mon, 11 May 2026 05:15:08 GMT</pubDate></item><item><title><![CDATA[Reply to 有没有3090或以上，24G显存的兄弟，关于QWEN 27B DFLASH加速 on Mon, 11 May 2026 01:06:00 GMT]]></title><description><![CDATA[<p dir="auto">我已经跑起来了,确认有80 TOKEN/S,但是不稳定,难怪没有多少人做视频,完全 不实用啊. 因为它上下文一张就会爆缸,或者变傻.作者明显没有调试好,而且他上传的另一个模型也是半成品.  真服了.</p>
]]></description><link>https://lcz.me/post/888</link><guid isPermaLink="true">https://lcz.me/post/888</guid><dc:creator><![CDATA[Jame Huang]]></dc:creator><pubDate>Mon, 11 May 2026 01:06:00 GMT</pubDate></item><item><title><![CDATA[Reply to 有没有3090或以上，24G显存的兄弟，关于QWEN 27B DFLASH加速 on Sun, 10 May 2026 13:14:05 GMT]]></title><description><![CDATA[<p dir="auto">对了，它这个项目 应该 是用到CPU和内存的，我之前有次看到CPU显示300%，大概就 是3-4个核心一起发力了。</p>
]]></description><link>https://lcz.me/post/779</link><guid isPermaLink="true">https://lcz.me/post/779</guid><dc:creator><![CDATA[Jame Huang]]></dc:creator><pubDate>Sun, 10 May 2026 13:14:05 GMT</pubDate></item><item><title><![CDATA[Reply to 有没有3090或以上，24G显存的兄弟，关于QWEN 27B DFLASH加速 on Sun, 10 May 2026 13:10:27 GMT]]></title><description><![CDATA[<p dir="auto">不是，它那个项目里面反正有写。还有2-3个子模块，能增强注意力，还有长文本的处理能力。但是我不管怎么都跑不出翻倍的速度。 我是UBUNTU 24.04.让HERMES设置 桌面使用INTEL集成显卡。3090 空载一般 不高于500MB显存占用。<br />
我现在把HERMES的模型换成QWEN 3.5 9B Q8UD来，让它去重新克隆 编译试试。</p>
]]></description><link>https://lcz.me/post/775</link><guid isPermaLink="true">https://lcz.me/post/775</guid><dc:creator><![CDATA[Jame Huang]]></dc:creator><pubDate>Sun, 10 May 2026 13:10:27 GMT</pubDate></item><item><title><![CDATA[Reply to 有没有3090或以上，24G显存的兄弟，关于QWEN 27B DFLASH加速 on Sun, 10 May 2026 13:06:16 GMT]]></title><description><![CDATA[<p dir="auto">对于 dfLASH 来说， 你说的 130 t/s 那是最高速度， 但是平时普通速度也没有快多少， 看你的提示词了， 据说不同工作状态速度差很多， 平均下来不一定快非常多的。</p>
]]></description><link>https://lcz.me/post/773</link><guid isPermaLink="true">https://lcz.me/post/773</guid><dc:creator><![CDATA[johnnybegood]]></dc:creator><pubDate>Sun, 10 May 2026 13:06:16 GMT</pubDate></item><item><title><![CDATA[Reply to 有没有3090或以上，24G显存的兄弟，关于QWEN 27B DFLASH加速 on Sun, 10 May 2026 13:00:44 GMT]]></title><description><![CDATA[<p dir="auto">我windows 下 lm studio 3090 跑27b 才 15t/s , 40t/s 是不是必须在 ubuntu 下面， vllm 跑才可以？</p>
]]></description><link>https://lcz.me/post/772</link><guid isPermaLink="true">https://lcz.me/post/772</guid><dc:creator><![CDATA[johnnybegood]]></dc:creator><pubDate>Sun, 10 May 2026 13:00:44 GMT</pubDate></item><item><title><![CDATA[Reply to 有没有3090或以上，24G显存的兄弟，关于QWEN 27B DFLASH加速 on Sun, 10 May 2026 12:57:53 GMT]]></title><description><![CDATA[<p dir="auto">没尝试过，不值得，3090跑3.6 27b能到40toikens/s，足够流畅，Agent主要看Prefill的性能，，投机解码意义不大。你如果想要尝试MTP和Dflash，可以直接用VLLM。</p>
]]></description><link>https://lcz.me/post/770</link><guid isPermaLink="true">https://lcz.me/post/770</guid><dc:creator><![CDATA[terry]]></dc:creator><pubDate>Sun, 10 May 2026 12:57:53 GMT</pubDate></item><item><title><![CDATA[Reply to 有没有3090或以上，24G显存的兄弟，关于QWEN 27B DFLASH加速 on Sun, 10 May 2026 12:56:29 GMT]]></title><description><![CDATA[<p dir="auto">记住要用3.5版本的，因为3.6的草稿模型z-lab 还在训练中，估计是要和qwen 3.6 27B Q4KM模型对齐才可以</p>
]]></description><link>https://lcz.me/post/769</link><guid isPermaLink="true">https://lcz.me/post/769</guid><dc:creator><![CDATA[Jame Huang]]></dc:creator><pubDate>Sun, 10 May 2026 12:56:29 GMT</pubDate></item></channel></rss>