r9700 32G速度总算达标了，27B MTP,能上50t/s

sospda

Q4_K_M · 1500 tokens 测试结果

| 指标        | 值                                 |
|-------------|------------------------------------|
| 生成速度    | 53.5 tok/s 🚀                      |
| 总耗时      | 28.0s                              |
| MTP 接受率  | 60.8%（1592 draft / 968 accepted） |
| Prompt 处理 | 115.4 tok/s（prompt cache 命中）   |

2026-06-03 06-47-09屏幕截图.png

draft=3

sospda

最大功耗限制在280W, 不限制应该还能更高点。不过性能损失应该很小。

-c 65536 -ngl 99
--reasoning auto
--spec-type draft-mtp --spec-draft-n-max 3
--flash-attn on
-ub 512 \

Tony Wang

Prompt 处理 | 115.4 tok/s（prompt cache 命中） -- 这个速度似乎很低.

我没有让hermes自己测试过, 我都是用 LLM框架自带的测试或者llm bench的脚本测试的. 我的M5pro 能到 300 - 400.

我觉得R9700应该能到600以上吧?

sospda

llama不知道有什么标准测试，都是自己随便跑一下简单测试。如果有标准测试只要时间不是太长，都可以测一下，有个对比。模型前后换了20多个了，每个都跑很长时间的测试，时间也不允许。

Tony Wang

我之前用的是 llm_context_benchmarks , 支持多种框架. 测试时间主要看上下文的长度, 主要测试 64k, 128k就行. 要开 KV Q8. 测试时间并不长, 几分钟就能跑完.

这个工具star不多, 是ChatGPT推荐给我的, 你也可以找找有更多star 的llm bench工具, 还是有不少的.

sospda

好的，谢谢。不同框架都试了，llama,ollama,vllm,lm stduio,然后35b,32b,30b,27b ，然后带MTP,然后q4、q5、q6, 说试了20多个模型感觉说少了，哈哈。一直没时间找测试的软件。自己瞎测一个，感觉不好用的就pass了，也没有调过参数。后面才知道参数对速度影响也挺大的。现在基本确定27b mtp版本的，推理能力和响应速度都不错。

Tony Wang

我觉得你R9700的prefill 肯定是没问题的, 只是hermes给你的答案不对

iocat

@Tony-Wang 这个应该是提示词很短导致的

Tony Wang

@iocat

有可能, 估计是提示词很短, 又加上了 thinking, 导致有效首字很慢, 看起来像是prefill 很慢的样子.

spur6897

老兄, 能分享下參數嗎?

抡锤者

r9700 32G速度总算达标了，27B MTP,能上50t/s