<![CDATA[RTX PRO 5000的qwen3.6-27B性能优化]]>

<![CDATA[RTX PRO 5000的qwen3.6-27B性能优化]]>基于上帖：RTX PRO 5000碎碎念 @566656661 老哥的鞭策，基本上遍历了市面上所有比较火的qwen3.6-27B模型。最终找到了一个相对性价比最高的版本：Qwen3.6-27B-NVFP4-MTP-GGUF

驱动版本：
596.59
CUDA 13.0

优势：

多模态，nvfp4，llama-cpp，MTP支持，MTP-nvfp4量化（目前唯一）

劣势：

不是非拒绝模型

启动参数如下：

~/projects/llama.cpp/build/bin/llama-server \
  -m ~/.local/models/Qwen3.6-27B-NVFP4-MTP-GGUF.gguf \
  --mmproj ~/.local/models/Qwen3.6-27B-mmproj-BF16.gguf \
  -ngl 99 \
  --flash-attn on \
  --cache-type-k q8_0 \
  --cache-type-v q8_0 \
  -c 262144 \
  --port 8081 \
  --host 0.0.0.0 \
  --temp 0.6 \
  --top-p 0.95 \
  --top-k 40 \
  --repeat-penalty 1.05 \
  --repeat-last-n 512 \
  --spec-type draft-mtp \
  --spec-draft-n-max 2

最终实战结果：
在Hermes Agent中实战调用，上下文总长256K，已占用100K的前提下，跑出了prefill：1400t/s decode：60t/s 的成绩，至少在hermes调用上，LLM的逻辑推理已经不成瓶颈。且在我自用的两天中，并没有出现无限循环的情况。

推荐给大家。

]]>https://lcz.me/topic/519/rtx-pro-5000的qwen3.6-27b性能优化RSS for NodeThu, 11 Jun 2026 06:25:40 GMTThu, 11 Jun 2026 02:58:27 GMT60