RTX PRO 5000的qwen3.6-27B性能优化

kop wang

基于上帖：RTX PRO 5000碎碎念 @566656661 老哥的鞭策，基本上遍历了市面上所有比较火的qwen3.6-27B模型。最终找到了一个相对性价比最高的版本：Qwen3.6-27B-NVFP4-MTP-GGUF

驱动版本：
596.59
CUDA 13.0

优势：

多模态，nvfp4，llama-cpp，MTP支持，MTP-nvfp4量化（目前唯一）

劣势：

不是非拒绝模型

启动参数如下：

~/projects/llama.cpp/build/bin/llama-server \
  -m ~/.local/models/Qwen3.6-27B-NVFP4-MTP-GGUF.gguf \
  --mmproj ~/.local/models/Qwen3.6-27B-mmproj-BF16.gguf \
  -ngl 99 \
  --flash-attn on \
  --cache-type-k q8_0 \
  --cache-type-v q8_0 \
  -c 262144 \
  --port 8081 \
  --host 0.0.0.0 \
  --temp 0.6 \
  --top-p 0.95 \
  --top-k 40 \
  --repeat-penalty 1.05 \
  --repeat-last-n 512 \
  --spec-type draft-mtp \
  --spec-draft-n-max 2

最终实战结果：
在Hermes Agent中实战调用，上下文总长256K，已占用100K的前提下，跑出了prefill：1400t/s decode：60t/s 的成绩，至少在hermes调用上，LLM的逻辑推理已经不成瓶颈。且在我自用的两天中，并没有出现无限循环的情况。

推荐给大家。

mark

没用官方原版的吗? 这个有啥优势? 一会我下载下来看看 .

kop wang

@mark 官方只有FP8，所有的nvfp4都是第三方的。最有名的unsloth的直接跑不起来，vllm会直接把整个wsl拉崩溃。

剩下的在口碑上就拉不开差距了，于是选了个号称跑分最高的。恰巧这个又是nvfp4，又是gguf，又是多模态，还mtp。

terry

跑起来速度和在线的相比如何，我4090跑不了NVFP4，INT4量化智力足够了，速度我感觉也就那样，跑任务我觉得也不比xtx强多少，上下文你长一点，意义不大。超过128基本没啥意义。多来点实际体验。对了，多谈谈Turboquant，MTP，Dflash这些，MTP，DFlash对比等等。我还是Q8 KV，这几天AMD的卡我就偶尔玩玩，N卡已经把VLLM的环境都给卸载了，以后就Llama.cpp，不折腾了，甚至N卡以后都不碰大模型了。专职ComfyUI。

mark

我下载了, Qwen3.6-27B-NVFP4-MTP-GGUF ,我是lm studio ,跑残废了. 跑不动.

抡锤者

RTX PRO 5000的qwen3.6-27B性能优化

优势：

劣势：

启动参数如下：