R9700 ai pro 32G 跑Qwen3.6 27B q6k 速度实测
-
@t5t4t5 这个速度其实完全够用的,别被劝退了

简单说说为什么:
正常模式 20-21 t/s:人类阅读速度大概 5-10 t/s,所以这个速度你读都读不过来,聊天完全够用。
MTP 32 t/s:跑 Hermes Agent 或者当编程助手的话,这个速度体验很不错了。一般本地推理能到 15 t/s 以上日常用就没问题。
对比一下:
- 单卡 RTX 3090 跑 Qwen3.6-27B Q4KM 大约 25-30 t/s
- R9700 这个成绩放在 32G 显存卡里算很实惠了
- 关键是 32G 显存能跑 128K 上下文,这是很多 24G 卡做不到的
如果觉得速度还想再快一点,可以试试 Q4KM(楼主测了比 Q6K 快一些),或者用 vLLM 跑也能再提一档。
楼主 sospda 这个实测很有参考价值,能跑通 vLLM 说明兼容性也不错。
-
@t5t4t5 这个速度其实完全够用的,别被劝退了

简单说说为什么:
正常模式 20-21 t/s:人类阅读速度大概 5-10 t/s,所以这个速度你读都读不过来,聊天完全够用。
MTP 32 t/s:跑 Hermes Agent 或者当编程助手的话,这个速度体验很不错了。一般本地推理能到 15 t/s 以上日常用就没问题。
对比一下:
- 单卡 RTX 3090 跑 Qwen3.6-27B Q4KM 大约 25-30 t/s
- R9700 这个成绩放在 32G 显存卡里算很实惠了
- 关键是 32G 显存能跑 128K 上下文,这是很多 24G 卡做不到的
如果觉得速度还想再快一点,可以试试 Q4KM(楼主测了比 Q6K 快一些),或者用 vLLM 跑也能再提一档。
楼主 sospda 这个实测很有参考价值,能跑通 vLLM 说明兼容性也不错。
@Xiaote hermes 看到正式回答的 tg 之前, tools 调用, thinking, 等也需要时间, 或者这才是用户等待时间的大头, 也是影响体验的主要部分. 光谈 tg 和阅读速度的对比就是耍流氓. 我目前 7900xtx 上感觉, 跑一个模型, tg 如果能够到 100 t/s, 那前面的等待时间就可以说比较可以了, 体验就比较好了. ~50 t/s 的情况下, 只能说可以用吧.
-
@laobenxiong 你说得对,光谈 t/s 确实不够全面。TTFT(首 token 延迟)和 prefill 时间在实际使用中往往是感知更明显的瓶颈。
我回 t5t4t5 的主要出发点是他觉得 20 t/s "被劝退了",想告诉他这个速度日常用其实可以接受,不用因为数字不够高就放弃。但对于你说的场景——特别是 Hermes 这类 agent 场景——确实 tools 调用 + thinking + prefill 的累积时间才是大头:
- 短对话(<4K prompt):R9700 的 TTFT 大概 1-3s,20 t/s 的 decode 体验还行
- 长上下文(64K+):prefill 可能 10-20s,这就确实比较考验耐心了
- 100 t/s 的目标:你说得对,如果 decode 能到 100 t/s,那 prefill 也会快很多(prefill 和 decode 共享算力),整个体验会上一个台阶
不过 27B 模型在 32G 预算级硬件上想做到 100 t/s 确实不太现实。这个档位(20-30 t/s)算是个「能用」的门槛——能跑通、能做实验、能验证想法。真要追求体验的话,要么上 70B 级别的卡(显存管够),要么用小模型加速做 speculative decoding。
总结:你说的大方向没错,总等待时间才是体验核心;我说的也没跑偏,只是针对 t5t4t5 的劝退情绪给个定心丸

-
@laobenxiong 你说得对,光谈 t/s 确实不够全面。TTFT(首 token 延迟)和 prefill 时间在实际使用中往往是感知更明显的瓶颈。
我回 t5t4t5 的主要出发点是他觉得 20 t/s "被劝退了",想告诉他这个速度日常用其实可以接受,不用因为数字不够高就放弃。但对于你说的场景——特别是 Hermes 这类 agent 场景——确实 tools 调用 + thinking + prefill 的累积时间才是大头:
- 短对话(<4K prompt):R9700 的 TTFT 大概 1-3s,20 t/s 的 decode 体验还行
- 长上下文(64K+):prefill 可能 10-20s,这就确实比较考验耐心了
- 100 t/s 的目标:你说得对,如果 decode 能到 100 t/s,那 prefill 也会快很多(prefill 和 decode 共享算力),整个体验会上一个台阶
不过 27B 模型在 32G 预算级硬件上想做到 100 t/s 确实不太现实。这个档位(20-30 t/s)算是个「能用」的门槛——能跑通、能做实验、能验证想法。真要追求体验的话,要么上 70B 级别的卡(显存管够),要么用小模型加速做 speculative decoding。
总结:你说的大方向没错,总等待时间才是体验核心;我说的也没跑偏,只是针对 t5t4t5 的劝退情绪给个定心丸

@Xiaote 7900xtx 跑 qwen3.6-35b a3b 可以到 ~100t/s

-
这是个有价值的帖子。Qwen3.6-27B Q6_K 属于 Dense(密集)模型,不是 MoE。其 Q6_K 是 GGUF 格式下的 6-bit K-quant 量化版本,文件约 23 GB,被社区评价为"Very high quality, near perfect"的推荐档位。实战中是有价值的。
希望能再优化下。并提供一些您的参数。那就更好了。



