Lucebox DFlash + PFlash 7900XTX Qwen3.6-27B ~2.8–3.1x加速测试数据分享

David Zhang

@QuincySnow 是啊，希望那哥们加油，最近一段好几天没大版本放出来，但是目前的4k性能跟vulkan差不多，不知道能不能更强，等一段时间再试试看。

David Zhang

@terry 更新了tq3_0, 你可以出场了

David Zhang

iamvirus

@QuincySnow 这个你需要自己改代码

coin1860

dflash 不错， pflash 要关注一下，我让gemini 搜索作者承认pflash 不是无损的。作为agent 我觉得无所谓，但是编程就有点伤。还是等你们测试实际的效果。

terry

@David-Zhang 最近我不折腾了，我后面还要再买一张xtx再折腾，现在被油管这个AI视频政策弄的头疼，我这几天一直在纠结做什么内容，烦死了。

David Zhang

@terry 嗯嗯，看你时间啊，不慌。

David Zhang

@coin1860 嗯嗯，我这几天先测测看

terry

@David-Zhang 简化下，争取让我复制粘贴，全程鼠标搞定，，我特么被油管用魔障了。

zhenyu huang

问一下这个配置是必须物理层面的linux环境吗还是wsl2也可以照抄

ltyely

感谢大佬，可以抄作业了

sirwang

我K，这么详细的数据，这是要交稿吗？！帅~~~！

blackjack

@iamvirus 说:

我以为llama.cpp mtp已经稳定在50-60很爽了，但是prefill在上下文时 prefill稳定的下降，agent影响很大
这个prefill 这么稳定，搞得我再想买一个7900xtx了！不知道质量如何

只要吃满kv cache，不回退check point甚至full re prefill，每轮问答新增加的prefill对速度影响忽略不计吧。我把hermes hack到几乎没有前缀和尾缀漂移了，kv cache吃到极限100%命中。生成速度30tps，已经很满意了。我笔记本5090

joe1900

本来只是路过，看到楼主的作业忍不住要来点赞！！

nami ryuu

@david-zhang 请问，你这个7900xtx 256k上下文方案能跑多并发吗？还是只能一个。如果不能，你推荐买哪个显卡可以跑多并发？谢谢

抡锤者