Lucebox DFlash + PFlash 7900XTX Qwen3.6-27B ~2.8–3.1x加速 测试数据分享
-
@terry 等我 测两天再说,我只是让opencode给我拉下来编译跑了下,具体生产体验如何,且等我几天。
-
T terry 固定了该主题
-
@terry opencode 跑出来了,数据上来看 DFlash + PFlash确实可以
预填充性能 (tok/s)
上下文 llama.cpp HIP (AR) Lucebox (PFlash) 加速比 备注 128 619.51 312.5 0.50x PFlash 短上下文开销大 4K 734.57 726 (Q8 KV) 0.99x 持平 16K 649.08 735 (Q8 KV) 1.13x 64K —¹ 733 (Q8 KV) — ¹llama.cpp context 创建 OOM 128K —¹ 730 (Q4 KV) — 192K —¹ 730 (Q4 KV) — 256K —¹ 730 (Q4 KV + Q4 draft) — ¹ AR prefill 在 64K+ 无法运行,因为 llama.cpp 在 context 创建时就需要分配完整 KV cache(O(n²) 注意力 + 全量 KV 存储),64K Q4 KV 约 8 GiB + 模型 15 GiB 已超 24 GiB。这是 PFlash 的核心优势:压缩预填充将长 prompt 压缩为固定大小,prefill 复杂度从 O(n²) 降至 O(n)。
256K 需使用 Q4 Draft + Q4 KV cache 以节省显存。
解码性能 (tok/s)
上下文 llama.cpp HIP (AR) Lucebox (DFlash) 加速比 备注 128 28.07 62.75 2.24x 4K 27.77 86.37 3.11x 16K 27.79 76.87 2.77x 64K 27.78¹ 78.33 2.82x ¹AR decode 与 ctx 无关 128K 27.78¹ 78.82 (Q4 KV) 2.84x 192K 27.78¹ 81.09 (Q4 KV) 2.92x 256K 27.78¹ 81.01 (Q4 KV + Q4 draft) 2.92x AR decode 速度与上下文长度无关(KV cache size 不影响单 token forward),因此所有行使用同一基线(4K 和 16K 实测均值 27.78 tok/s)。DFlash decode 在所有上下文下稳定加速 ~2.8-3.1x。
256K 时需 Q4 Draft + Q4 KV cache 才能装入 24 GiB 显存。PFlash 预填充在短上下文(4K)与 AR 相当;上下文越长,PFlash 优势越明显(16K 时 1.13x)。DFlash 解码在所有上下文长度下保持 ~2.8–3.1x 加速。
-
这个Lucebox 有点牛
-
@terry 在试了... 等我发帖
lucebox 现在已经 有了 tq_3, 意不意外,惊不惊喜。

-
如果是AMD卡的话可以使用https://github.com/Kaden-Schutt/hipfire ,目前还不太成熟,但是我是6650XT在Liunx跑Qwen 3.5 9B可以到达45 tok/s,且如果开启DFlash 之后更快
-
如果是AMD卡的话可以使用https://github.com/Kaden-Schutt/hipfire ,目前还不太成熟,但是我是6650XT在Liunx跑Qwen 3.5 9B可以到达45 tok/s,且如果开启DFlash 之后更快
@QuincySnow 这货 8k ctx以上就会炸,4k随便完
-
只能等它优化了,至少有专门优化的可以选择不是吗?
-
只能等它优化了,至少有专门优化的可以选择不是吗?
@QuincySnow 是啊,希望那哥们加油,最近一段好几天没大版本放出来,但是目前的4k性能跟vulkan差不多,不知道能不能更强,等一段时间再试试看。
-
@terry 更新了tq3_0, 你可以出场了

-
-
如果是AMD卡的话可以使用https://github.com/Kaden-Schutt/hipfire ,目前还不太成熟,但是我是6650XT在Liunx跑Qwen 3.5 9B可以到达45 tok/s,且如果开启DFlash 之后更快
@QuincySnow 这个你需要自己改代码
-
@terry 更新了tq3_0, 你可以出场了

@David-Zhang 最近我不折腾了,我后面还要再买一张xtx再折腾,现在被油管这个AI视频政策弄的头疼,我这几天一直在纠结做什么内容,烦死了。
-
@David-Zhang 最近我不折腾了,我后面还要再买一张xtx再折腾,现在被油管这个AI视频政策弄的头疼,我这几天一直在纠结做什么内容,烦死了。
@terry 嗯嗯,看你时间啊,不慌。
-
dflash 不错, pflash 要关注一下, 我让gemini 搜索作者承认pflash 不是无损的。 作为agent 我觉得无所谓, 但是编程就有点伤。还是等你们测试实际的效果。
@coin1860 嗯嗯,我这几天先测测看
-
@coin1860 嗯嗯,我这几天先测测看
@David-Zhang 简化下,争取让我复制粘贴,全程鼠标搞定,
,我特么被油管用魔障了。