Lucebox DFlash + PFlash 7900XTX Qwen3.6-27B ~2.8–3.1x加速测试数据分享

terry

补充下，我到时候给置顶。

David Zhang

@terry opencode 跑出来了，数据上来看 DFlash + PFlash确实可以

预填充性能 (tok/s)

上下文	llama.cpp HIP (AR)	Lucebox (PFlash)	加速比	备注
128	619.51	312.5	0.50x	PFlash 短上下文开销大
4K	734.57	726 (Q8 KV)	0.99x	持平
16K	649.08	735 (Q8 KV)	1.13x
64K	—¹	733 (Q8 KV)	—	¹llama.cpp context 创建 OOM
128K	—¹	730 (Q4 KV)	—
192K	—¹	730 (Q4 KV)	—
256K	—¹	730 (Q4 KV + Q4 draft)	—

¹ AR prefill 在 64K+ 无法运行，因为 llama.cpp 在 context 创建时就需要分配完整 KV cache（O(n²) 注意力 + 全量 KV 存储），64K Q4 KV 约 8 GiB + 模型 15 GiB 已超 24 GiB。这是 PFlash 的核心优势：压缩预填充将长 prompt 压缩为固定大小，prefill 复杂度从 O(n²) 降至 O(n)。

256K 需使用 Q4 Draft + Q4 KV cache 以节省显存。

解码性能 (tok/s)

上下文	llama.cpp HIP (AR)	Lucebox (DFlash)	加速比	备注
128	28.07	62.75	2.24x
4K	27.77	86.37	3.11x
16K	27.79	76.87	2.77x
64K	27.78¹	78.33	2.82x	¹AR decode 与 ctx 无关
128K	27.78¹	78.82 (Q4 KV)	2.84x
192K	27.78¹	81.09 (Q4 KV)	2.92x
256K	27.78¹	81.01 (Q4 KV + Q4 draft)	2.92x

AR decode 速度与上下文长度无关（KV cache size 不影响单 token forward），因此所有行使用同一基线（4K 和 16K 实测均值 27.78 tok/s）。DFlash decode 在所有上下文下稳定加速 ~2.8-3.1x。
256K 时需 Q4 Draft + Q4 KV cache 才能装入 24 GiB 显存。

PFlash 预填充在短上下文（4K）与 AR 相当；上下文越长，PFlash 优势越明显（16K 时 1.13x）。DFlash 解码在所有上下文长度下保持 ~2.8–3.1x 加速。

bin flamebox

这个Lucebox 有点牛

terry

还是需要测试TurboQuant+Dflash，总之必须要同时工作，否则对于24G卡没有意义。

David Zhang

@terry 在试了... 等我发帖

lucebox 现在已经有了 tq_3, 意不意外，惊不惊喜。

iamvirus

我以为llama.cpp mtp已经稳定在50-60很爽了，但是prefill在上下文时 prefill稳定的下降，agent影响很大
这个prefill 这么稳定，搞得我再想买一个7900xtx了！不知道质量如何

QuincySnow

如果是AMD卡的话可以使用https://github.com/Kaden-Schutt/hipfire ,目前还不太成熟,但是我是6650XT在Liunx跑Qwen 3.5 9B可以到达45 tok/s,且如果开启DFlash 之后更快

David Zhang

@QuincySnow 这货 8k ctx以上就会炸，4k随便完

QuincySnow

只能等它优化了,至少有专门优化的可以选择不是吗?

David Zhang

@QuincySnow 是啊，希望那哥们加油，最近一段好几天没大版本放出来，但是目前的4k性能跟vulkan差不多，不知道能不能更强，等一段时间再试试看。

David Zhang

@terry 更新了tq3_0, 你可以出场了

David Zhang

想抄作业的看这里
Lucebox DFlash + PFlash 编译与部署指南 Qwen3.6-27B 方便抄作业 (Linux)

iamvirus

@QuincySnow 这个你需要自己改代码

coin1860

dflash 不错， pflash 要关注一下，我让gemini 搜索作者承认pflash 不是无损的。作为agent 我觉得无所谓，但是编程就有点伤。还是等你们测试实际的效果。

terry

@David-Zhang 最近我不折腾了，我后面还要再买一张xtx再折腾，现在被油管这个AI视频政策弄的头疼，我这几天一直在纠结做什么内容，烦死了。

David Zhang

@terry 嗯嗯，看你时间啊，不慌。

David Zhang

@coin1860 嗯嗯，我这几天先测测看

terry

@David-Zhang 简化下，争取让我复制粘贴，全程鼠标搞定，，我特么被油管用魔障了。

zhenyu huang

问一下这个配置是必须物理层面的linux环境吗还是wsl2也可以照抄

ltyely

感谢大佬，可以抄作业了

抡锤者

Lucebox DFlash + PFlash 7900XTX Qwen3.6-27B ~2.8–3.1x加速 测试数据分享

预填充性能 (tok/s)

解码性能 (tok/s)

Lucebox DFlash + PFlash 7900XTX Qwen3.6-27B ~2.8–3.1x加速测试数据分享