<?xml version="1.0" encoding="UTF-8"?><rss xmlns:dc="http://purl.org/dc/elements/1.1/" xmlns:content="http://purl.org/rss/1.0/modules/content/" xmlns:atom="http://www.w3.org/2005/Atom" version="2.0"><channel><title><![CDATA[RTX PRO 5000的qwen3.6-27B性能优化]]></title><description><![CDATA[<p dir="auto">基于上帖：<a href="https://lcz.me/topic/484/%E6%9D%A5%E8%87%AArtx-pro-5000%E7%9A%84%E7%A2%8E%E7%A2%8E%E5%BF%B5?_=1781144693162">RTX PRO 5000碎碎念</a><a class="plugin-mentions-user plugin-mentions-a" href="/user/566656661" aria-label="Profile: 566656661">@<bdi>566656661</bdi></a> 老哥的鞭策，基本上遍历了市面上所有比较火的qwen3.6-27B模型。最终找到了一个相对性价比最高的版本：<a href="https://huggingface.co/michaelw9999/Qwen3.6-27B-NVFP4-MTP-GGUF" rel="nofollow ugc">Qwen3.6-27B-NVFP4-MTP-GGUF</a></p>
<hr />
<p dir="auto">驱动版本：<br />
596.59<br />
CUDA 13.0</p>
<hr />
<h3>优势：</h3>
<p dir="auto">多模态，nvfp4，llama-cpp，MTP支持，MTP-nvfp4量化（目前唯一）</p>
<h3>劣势：</h3>
<p dir="auto">不是非拒绝模型</p>
<hr />
<h3>启动参数如下：</h3>
<pre><code>~/projects/llama.cpp/build/bin/llama-server \
  -m ~/.local/models/Qwen3.6-27B-NVFP4-MTP-GGUF.gguf \
  --mmproj ~/.local/models/Qwen3.6-27B-mmproj-BF16.gguf \
  -ngl 99 \
  --flash-attn on \
  --cache-type-k q8_0 \
  --cache-type-v q8_0 \
  -c 262144 \
  --port 8081 \
  --host 0.0.0.0 \
  --temp 0.6 \
  --top-p 0.95 \
  --top-k 40 \
  --repeat-penalty 1.05 \
  --repeat-last-n 512 \
  --spec-type draft-mtp \
  --spec-draft-n-max 2
</code></pre>
<p dir="auto">最终实战结果：<br />
在Hermes Agent中实战调用，上下文总长256K，已占用100K的前提下，跑出了prefill：1400t/s decode：60t/s 的成绩，至少在hermes调用上，LLM的逻辑推理已经不成瓶颈。且在我自用的两天中，并没有出现无限循环的情况。</p>
<p dir="auto">推荐给大家。</p>
]]></description><link>https://lcz.me/topic/519/rtx-pro-5000的qwen3.6-27b性能优化</link><generator>RSS for Node</generator><lastBuildDate>Thu, 11 Jun 2026 06:25:40 GMT</lastBuildDate><atom:link href="https://lcz.me/topic/519.rss" rel="self" type="application/rss+xml"/><pubDate>Thu, 11 Jun 2026 02:58:27 GMT</pubDate><ttl>60</ttl></channel></rss>