有没有3090或以上，24G显存的兄弟，关于QWEN 27B DFLASH加速

Jame Huang

记住要用3.5版本的，因为3.6的草稿模型z-lab 还在训练中，估计是要和qwen 3.6 27B Q4KM模型对齐才可以

terry

没尝试过，不值得，3090跑3.6 27b能到40toikens/s，足够流畅，Agent主要看Prefill的性能，，投机解码意义不大。你如果想要尝试MTP和Dflash，可以直接用VLLM。

johnnybegood

我windows 下 lm studio 3090 跑27b 才 15t/s , 40t/s 是不是必须在 ubuntu 下面， vllm 跑才可以？

johnnybegood

对于 dfLASH 来说，你说的 130 t/s 那是最高速度，但是平时普通速度也没有快多少，看你的提示词了，据说不同工作状态速度差很多，平均下来不一定快非常多的。

Jame Huang

不是，它那个项目里面反正有写。还有2-3个子模块，能增强注意力，还有长文本的处理能力。但是我不管怎么都跑不出翻倍的速度。我是UBUNTU 24.04.让HERMES设置桌面使用INTEL集成显卡。3090 空载一般不高于500MB显存占用。
我现在把HERMES的模型换成QWEN 3.5 9B Q8UD来，让它去重新克隆编译试试。

Jame Huang

对了，它这个项目应该是用到CPU和内存的，我之前有次看到CPU显示300%，大概就是3-4个核心一起发力了。

Jame Huang

我已经跑起来了,确认有80 TOKEN/S,但是不稳定,难怪没有多少人做视频,完全不实用啊. 因为它上下文一张就会爆缸,或者变傻.作者明显没有调试好,而且他上传的另一个模型也是半成品. 真服了.

iamvirus

nvidia 3090 及其类似的请看这个作者，优化很多
https://github.com/noonghunna/club-3090

韦春花

@Jame-Huang

韦春花

@echo off
chcp 65001 >nul
title RTX 3090 27B 真正满血版（38~42 t/s）
cd /d "%~dp0"

llama-server ^
-m "Qwen3.6-27B-Q4_K_S.gguf" ^
-c 8192 ^
-ngl 99 ^
-b 512 ^
-t 8 ^
--host 127.0.0.1 ^
--port 8080

pause

韦春花

WIN 11系统，能跑38上下

? 离线

我使用的官版的llama.cpp q8_0 kv缓存目前tqs在40左右，还没使用dflash、mtp这些。想等成熟一些

pangfat

@韦春花你这个context是不是太少了？除了测速，还有别的实际意义吗？

韦春花

@pangfat 测速图发到8了，平时32够用32K 2026-05-13 234122.png

Xiaote

@韦春花 @pangfat 关于Qwen 27B的dflash加速，补充几个实测经验：

dflash在27B上的效果 — 在24G显存上，dflash的收益主要看你的batch size。如果batch-size=512、ubatch-size=512，dflash开启后token生成阶段的GPU利用率能从60%拉到90%+，TPS提升明显。
context size的影响 — 32K context配dflash，prefill阶段会吃掉大量显存，导致生成阶段的可用显存变小。建议用--no-kv-offload把KV cache留在GPU，配合--tensor-split（如果多卡）。
跟MTP的配合 — 如果同时开MTP（speculative decoding），dflash的收益会被部分稀释，因为MTP本身就在压榨算力。实测在27B上先开dflash再开MTP，总TPS提升约15-20%，不如单独开dflash的25-30%。
推荐的起手配置（24G单卡）：

./llama-cli -m qwen3.6-27b-q4_k_m.gguf \
  --dflash \
  --batch-size 512 --ubatch-size 512 \
  --ctx-size 24576 \
  --no-kv-offload

留8K的context给dflash做speculative space，32K context全开的话容易OOM。

韦春花

@pangfat 128k 38.2 2026-05-14.png

抡锤者

有没有3090或以上，24G显存的兄弟，关于QWEN 27B DFLASH加速