<?xml version="1.0" encoding="UTF-8"?><rss xmlns:dc="http://purl.org/dc/elements/1.1/" xmlns:content="http://purl.org/rss/1.0/modules/content/" xmlns:atom="http://www.w3.org/2005/Atom" version="2.0"><channel><title><![CDATA[来自RTX PRO 5000的碎碎念]]></title><description><![CDATA[<p dir="auto">最近入手了一张RTX PRO 5000，上机试用了几天。于是上来发一个零散的使用记录与心得。<br />
个人拙见，如有错误欢迎指正。</p>
<hr />
<h3>1、购买理由</h3>
<p dir="auto">在5月涨价之前，相比较7.3万的rtx pro 6000 96GB，3.6万的rtx pro 5000 48GB完全没有任何性价比。<br />
但随着这一轮涨价，pro6000的价格飙升到了10万以上，这时候只溢价2000的pro 5000 48GB就逐渐香了起来。</p>
<p dir="auto">在综合考虑能耗、噪音、稳定性等维度之后，最终摒弃了4090 48GB魔改版本，选择了国行的RTX PRO 5000。</p>
<hr />
<h3>2、硬件安装</h3>
<p dir="auto"><strong>特殊的涡轮卡</strong><br />
RTX PRO 5000是一个1.5槽散热+0.5槽输出接口的非标准显卡。接在普通的塔式机箱时，散热出口会被机箱pcie格栅挡掉一部分。同时，因为dp口靠上，所以dp口也是将将露出pcie挡板。于是，航空剪伺候，我去掉了一条pcie格栅。</p>
<p dir="auto"><img src="https://upload.lcz.me/uploads/ccc3dd54-2800-47a0-b965-b453fd9f49b0.jpeg" alt="0ff5ace3-e47e-4072-85bf-c96b38913da0-image.jpeg" class=" img-fluid img-markdown" /></p>
<p dir="auto"><strong>DP接口也略有遮挡</strong>，但综合考虑之后我还是决定保留上面的pcie格栅，否则因为去掉太多，显卡固定螺丝位置的刚性会有所下降。</p>
<p dir="auto"><strong>16pin注意事项</strong><br />
随卡附带一条双8pin转16pin转接线。需要注意的是，如果你之前的显卡用的是1分2的8pin接口，对于300W功率的RTX PRO 5000，峰值使用电流就接近单8pin的功率极限了。所以建议还是老老实实使用双8pin转16pin电源线。如果你的电源原生支持16pin的话，则更好。</p>
<pre><code>btw：不同品牌电源的8pin、16pin线不要混用。不同品牌，电源侧的针脚定义是有概率不一致的。
值得吐槽的是，即便是专业卡，16pin还是老样子，插入手感模糊，紧。没有锁定感，所以一定插到底。
</code></pre>
<hr />
<h3>3、实际测试</h3>
<p dir="auto">综合芯片的算力和显存大小，qwen3.6-27B运行Q6应该是最佳的甜点区间。使用Claude Code进行实际相同的编程任务测速。</p>
<p dir="auto">启动参数：</p>
<pre><code>-m ~/.local/models/Qwen3.6-27B-Q6_K.gguf \
--mmproj ~/.local/models/mmproj-BF16.gguf \
-ngl 99 \
--flash-attn on \
--cache-type-k q8_0 \
--cache-type-v q8_0 \
-c 262144 \
--port 8080 \
--host 0.0.0.0 \
--temp 0.6 \
--top-p 0.95 \
--repeat-penalty 1.05 \
--spec-type draft-mtp \
--spec-draft-n-max 2
</code></pre>
<p dir="auto">非MTP：prefill在1400t/s，decode速度在32t/s左右。<br />
<img src="https://upload.lcz.me/uploads/cf605bb7-1766-4fa9-b8e4-d65095ef7a9e.jpeg" alt="6a54ad1f-62fd-4f1d-981b-a995cda15119-image.jpeg" class=" img-fluid img-markdown" /><br />
MTP x2：prefill在1400t/s，decode在51t/s左右。<br />
<img src="https://upload.lcz.me/uploads/0af4068b-3fba-4706-800f-7cd6eefbf965.jpeg" alt="2d4621cf-5485-444a-894f-3d4dba1c9504-image.jpeg" class=" img-fluid img-markdown" /></p>
<p dir="auto"><strong>注意：实际使用过程中，随着上下文的膨胀，速度会有所下降。以及并不是所有请求MTP都能够命中生效，总体命中概率大概60%。</strong></p>
<hr />
<h3>4、使用体验</h3>
<p dir="auto"><strong>噪音</strong>：典型的涡轮卡目标温度调教，核心温度会锁死85度。室温在28度左右的情况下，满载压在85度的转速大概是60%。噪音是完全被CPU风扇+机箱风扇掩盖的。<br />
在跑qwen3.6-27B-nvfp4时，曾经崩溃过驱动导致死机。这时风扇会自动锁死100%，动静还是很大的。和戴森吸尘器有一拼。</p>
<p dir="auto"><strong>稳定性</strong>：同上，只在运行nvfp4时驱动崩溃自动重启过，目前还没排查出原因。已经用DDU全清了显卡驱动，然后重新安装了596.59，再观察观察。</p>
<hr />
<h3>5、个人思考</h3>
<p dir="auto">如果不考虑个人预算，只从单纯的AI硬件性价比来讲，目前PRO 5000和PRO 6000的价格结构才是合理的(6000大概是5000的2.5~3倍)。反过来思考，上个月7.3万的PRO 6000工作站版是真的非常有性价比（几乎可以理解为显存叠加，芯片性能白送）。</p>
<p dir="auto">音视频是我之前不太擅长的领域，目前也在逐渐尝试，发现大场景，高动态的视频场景，48GB的显存+64GB内存还是远远不够。<br />
但是世界上没有如果。所以只能是以优化、折腾管线、工作流来换价格了。</p>
]]></description><link>https://lcz.me/topic/484/来自rtx-pro-5000的碎碎念</link><generator>RSS for Node</generator><lastBuildDate>Thu, 11 Jun 2026 07:46:34 GMT</lastBuildDate><atom:link href="https://lcz.me/topic/484.rss" rel="self" type="application/rss+xml"/><pubDate>Tue, 09 Jun 2026 01:56:29 GMT</pubDate><ttl>60</ttl><item><title><![CDATA[Reply to 来自RTX PRO 5000的碎碎念 on Thu, 11 Jun 2026 04:03:26 GMT]]></title><description><![CDATA[<p dir="auto"><a class="plugin-mentions-user plugin-mentions-a" href="/user/kop-wang" aria-label="Profile: kop-wang">@<bdi>kop-wang</bdi></a> 稍微可惜一些, nvfp4應該行, 3.6萬現在回頭看好便宜阿, 5090也都快趕上這個價位了</p>
]]></description><link>https://lcz.me/post/6240</link><guid isPermaLink="true">https://lcz.me/post/6240</guid><dc:creator><![CDATA[b9704037]]></dc:creator><pubDate>Thu, 11 Jun 2026 04:03:26 GMT</pubDate></item><item><title><![CDATA[Reply to 来自RTX PRO 5000的碎碎念 on Wed, 10 Jun 2026 01:26:49 GMT]]></title><description><![CDATA[<p dir="auto"><a class="plugin-mentions-user plugin-mentions-a" href="/user/mark" aria-label="Profile: mark">@<bdi>mark</bdi></a></p>
<p dir="auto">除了雕刻的文字變了, 中間的散熱塊變波紋形狀, 其他應該外表跟4500沒什麼分別吧?</p>
]]></description><link>https://lcz.me/post/6051</link><guid isPermaLink="true">https://lcz.me/post/6051</guid><dc:creator><![CDATA[566656661]]></dc:creator><pubDate>Wed, 10 Jun 2026 01:26:49 GMT</pubDate></item><item><title><![CDATA[Reply to 来自RTX PRO 5000的碎碎念 on Wed, 10 Jun 2026 01:09:16 GMT]]></title><description><![CDATA[<p dir="auto">拍一个显卡 照片 看看, 让我们没钱买的, 也看看pro 5000的真容.</p>
]]></description><link>https://lcz.me/post/6049</link><guid isPermaLink="true">https://lcz.me/post/6049</guid><dc:creator><![CDATA[mark]]></dc:creator><pubDate>Wed, 10 Jun 2026 01:09:16 GMT</pubDate></item><item><title><![CDATA[Reply to 来自RTX PRO 5000的碎碎念 on Wed, 10 Jun 2026 01:08:19 GMT]]></title><description><![CDATA[<p dir="auto">恭喜入坑 rtx pro5000.  3.6w 真的不便宜啊</p>
]]></description><link>https://lcz.me/post/6048</link><guid isPermaLink="true">https://lcz.me/post/6048</guid><dc:creator><![CDATA[mark]]></dc:creator><pubDate>Wed, 10 Jun 2026 01:08:19 GMT</pubDate></item><item><title><![CDATA[Reply to 来自RTX PRO 5000的碎碎念 on Tue, 09 Jun 2026 14:04:03 GMT]]></title><description><![CDATA[<p dir="auto">想说现在很多机箱每个槽中间没有那一条，整体就是一个洞</p>
]]></description><link>https://lcz.me/post/6004</link><guid isPermaLink="true">https://lcz.me/post/6004</guid><dc:creator><![CDATA[stakira]]></dc:creator><pubDate>Tue, 09 Jun 2026 14:04:03 GMT</pubDate></item><item><title><![CDATA[Reply to 来自RTX PRO 5000的碎碎念 on Tue, 09 Jun 2026 10:54:31 GMT]]></title><description><![CDATA[<p dir="auto">不用多想，自己咬牙能买的起的最好的，就是好的。</p>
]]></description><link>https://lcz.me/post/5976</link><guid isPermaLink="true">https://lcz.me/post/5976</guid><dc:creator><![CDATA[sirwang]]></dc:creator><pubDate>Tue, 09 Jun 2026 10:54:31 GMT</pubDate></item><item><title><![CDATA[Reply to 来自RTX PRO 5000的碎碎念 on Tue, 09 Jun 2026 05:23:03 GMT]]></title><description><![CDATA[<p dir="auto">我非常懒。所以很少折腾自己不需要的东西。</p>
]]></description><link>https://lcz.me/post/5934</link><guid isPermaLink="true">https://lcz.me/post/5934</guid><dc:creator><![CDATA[williamlouis]]></dc:creator><pubDate>Tue, 09 Jun 2026 05:23:03 GMT</pubDate></item><item><title><![CDATA[Reply to 来自RTX PRO 5000的碎碎念 on Tue, 09 Jun 2026 05:11:22 GMT]]></title><description><![CDATA[<p dir="auto"><a class="plugin-mentions-user plugin-mentions-a" href="/user/williamlouis" aria-label="Profile: williamlouis">@<bdi>williamlouis</bdi></a></p>
<p dir="auto">也是</p>
<p dir="auto">畢竟不是卡的所有人，只是個人覺得看到有性能還沒有釋放有點可惜而已</p>
<p dir="auto">感覺有點像在德國的高速公路只跑標準120 (很快沒錯), 但是知道引擎還能再快一點, 極限在160到170, 想跑到140的樣子 <img src="https://lcz.me/assets/plugins/nodebb-plugin-emoji/emoji/android/1f602.png?v=d348ca29232" class="not-responsive emoji emoji-android emoji--joy" style="height:23px;width:auto;vertical-align:middle" title=":joy:" alt="😂" /></p>
]]></description><link>https://lcz.me/post/5931</link><guid isPermaLink="true">https://lcz.me/post/5931</guid><dc:creator><![CDATA[566656661]]></dc:creator><pubDate>Tue, 09 Jun 2026 05:11:22 GMT</pubDate></item><item><title><![CDATA[Reply to 来自RTX PRO 5000的碎碎念 on Tue, 09 Jun 2026 04:58:19 GMT]]></title><description><![CDATA[<p dir="auto"><a class="plugin-mentions-user plugin-mentions-a" href="/user/566656661" aria-label="Profile: 566656661">@<bdi>566656661</bdi></a> 看感觉尺度了。我的够用不是你的够用。得你感觉够用才是真够用。不是吗？</p>
]]></description><link>https://lcz.me/post/5929</link><guid isPermaLink="true">https://lcz.me/post/5929</guid><dc:creator><![CDATA[williamlouis]]></dc:creator><pubDate>Tue, 09 Jun 2026 04:58:19 GMT</pubDate></item><item><title><![CDATA[Reply to 来自RTX PRO 5000的碎碎念 on Tue, 09 Jun 2026 04:54:07 GMT]]></title><description><![CDATA[<p dir="auto"><a class="plugin-mentions-user plugin-mentions-a" href="/user/williamlouis" aria-label="Profile: williamlouis">@<bdi>williamlouis</bdi></a></p>
<p dir="auto">感覺這不是壓不壓榨極限性能的問題, 而是這個性能好像連甜品位都還沒到的樣子</p>
]]></description><link>https://lcz.me/post/5927</link><guid isPermaLink="true">https://lcz.me/post/5927</guid><dc:creator><![CDATA[566656661]]></dc:creator><pubDate>Tue, 09 Jun 2026 04:54:07 GMT</pubDate></item><item><title><![CDATA[Reply to 来自RTX PRO 5000的碎碎念 on Tue, 09 Jun 2026 04:49:44 GMT]]></title><description><![CDATA[<p dir="auto">不做视频生产力。压榨不压榨极限值没什么必要。够用就行了。我都是开功耗墙跑。这样噪音小了好多。</p>
]]></description><link>https://lcz.me/post/5926</link><guid isPermaLink="true">https://lcz.me/post/5926</guid><dc:creator><![CDATA[williamlouis]]></dc:creator><pubDate>Tue, 09 Jun 2026 04:49:44 GMT</pubDate></item><item><title><![CDATA[Reply to 来自RTX PRO 5000的碎碎念 on Tue, 09 Jun 2026 03:11:28 GMT]]></title><description><![CDATA[<p dir="auto">prefill在1400t/s，decode速度在32t/s左右。</p>
<p dir="auto">这个有点慢啊？因为Q6 所以比较慢？<br />
3090这种宽带,Q4 都1600t/s Prefill, 60t/s decode?<br />
5000 pro 不应该至少2000t/s prefill , 80t/s decode?</p>
]]></description><link>https://lcz.me/post/5914</link><guid isPermaLink="true">https://lcz.me/post/5914</guid><dc:creator><![CDATA[applejuice]]></dc:creator><pubDate>Tue, 09 Jun 2026 03:11:28 GMT</pubDate></item><item><title><![CDATA[Reply to 来自RTX PRO 5000的碎碎念 on Tue, 09 Jun 2026 03:10:53 GMT]]></title><description><![CDATA[<p dir="auto"><a class="plugin-mentions-user plugin-mentions-a" href="/user/566656661" aria-label="Profile: 566656661">@<bdi>566656661</bdi></a> 感谢提点，我去尝试一下</p>
]]></description><link>https://lcz.me/post/5913</link><guid isPermaLink="true">https://lcz.me/post/5913</guid><dc:creator><![CDATA[kop wang]]></dc:creator><pubDate>Tue, 09 Jun 2026 03:10:53 GMT</pubDate></item><item><title><![CDATA[Reply to 来自RTX PRO 5000的碎碎念 on Tue, 09 Jun 2026 02:38:01 GMT]]></title><description><![CDATA[<p dir="auto"><a class="plugin-mentions-user plugin-mentions-a" href="/user/kop-wang" aria-label="Profile: kop-wang">@<bdi>kop-wang</bdi></a></p>
<p dir="auto">不考慮坊間的nvfp4嘛？ 這是blackwell架構的精髓, 模型權重至少會少個10％以上, 雖說特定任務benchmark下精度較低, 如果害怕精度損失的話可以繼續用其他坊間的fp8模型 (Qwen官方沒有坊間玩得花, 坊間其他不多不少都會有些性能或vram優化)</p>
<p dir="auto">然後不是太懂要用int 8 token head, 這東東給30系用比較合適, 畢竟Ampere沒有fp8, 論精度跟性能fp8比較好吧</p>
<p dir="auto">還有慣用的mtp跟用cu130 nightly (v 0.20, blackwell優化), cu129 latest (v 0.22)這些比較常規的</p>
]]></description><link>https://lcz.me/post/5910</link><guid isPermaLink="true">https://lcz.me/post/5910</guid><dc:creator><![CDATA[566656661]]></dc:creator><pubDate>Tue, 09 Jun 2026 02:38:01 GMT</pubDate></item><item><title><![CDATA[Reply to 来自RTX PRO 5000的碎碎念 on Tue, 09 Jun 2026 02:27:23 GMT]]></title><description><![CDATA[<p dir="auto"><a class="plugin-mentions-user plugin-mentions-a" href="/user/566656661" aria-label="Profile: 566656661">@<bdi>566656661</bdi></a> 当然欢迎交流，以下是我的FP8参数，您可以看看是否有什么值得优化的</p>
<pre><code>~/.local/venvs/vllm/bin/vllm serve ~/.local/models/Qwen3.6-27B-FP8 \
  --port 8000 \
  --max-model-len 262144 \
  --gpu-memory-utilization 0.95 \
  --kv-cache-dtype int8_per_token_head \
  --reasoning-parser qwen3 \
  --dtype auto \
  --enable-auto-tool-choice \
  --tool-call-parser qwen3_xml \
  --served-model-name Qwen/Qwen3.6-27B
</code></pre>
]]></description><link>https://lcz.me/post/5908</link><guid isPermaLink="true">https://lcz.me/post/5908</guid><dc:creator><![CDATA[kop wang]]></dc:creator><pubDate>Tue, 09 Jun 2026 02:27:23 GMT</pubDate></item><item><title><![CDATA[Reply to 来自RTX PRO 5000的碎碎念 on Tue, 09 Jun 2026 02:19:08 GMT]]></title><description><![CDATA[<p dir="auto">感謝測試</p>
<p dir="auto">無意冒犯但這性能估計也有很大一部分沒壓榨乾淨</p>
<p dir="auto">要不要嘗試一下vLLM來壓榨一下</p>
]]></description><link>https://lcz.me/post/5906</link><guid isPermaLink="true">https://lcz.me/post/5906</guid><dc:creator><![CDATA[566656661]]></dc:creator><pubDate>Tue, 09 Jun 2026 02:19:08 GMT</pubDate></item><item><title><![CDATA[Reply to 来自RTX PRO 5000的碎碎念 on Tue, 09 Jun 2026 02:16:09 GMT]]></title><description><![CDATA[<p dir="auto"><a class="plugin-mentions-user plugin-mentions-a" href="/user/tony-wang" aria-label="Profile: Tony-Wang">@<bdi>Tony-Wang</bdi></a> llama-bench是可以的，但是实战其实跑不出来这个数据。只能说llama-bench是性能上限。</p>
]]></description><link>https://lcz.me/post/5905</link><guid isPermaLink="true">https://lcz.me/post/5905</guid><dc:creator><![CDATA[kop wang]]></dc:creator><pubDate>Tue, 09 Jun 2026 02:16:09 GMT</pubDate></item><item><title><![CDATA[Reply to 来自RTX PRO 5000的碎碎念 on Tue, 09 Jun 2026 02:13:09 GMT]]></title><description><![CDATA[<p dir="auto"><a class="plugin-mentions-user plugin-mentions-a" href="/user/kop-wang" aria-label="Profile: kop-wang">@<bdi>kop-wang</bdi></a></p>
<p dir="auto">27B Q6, 非MTP：prefill在1400t/s，decode速度在32t/s左右</p>
<p dir="auto">这个数据比我想象的要低一点儿, 我以为能跑到50.</p>
]]></description><link>https://lcz.me/post/5903</link><guid isPermaLink="true">https://lcz.me/post/5903</guid><dc:creator><![CDATA[Tony Wang]]></dc:creator><pubDate>Tue, 09 Jun 2026 02:13:09 GMT</pubDate></item><item><title><![CDATA[Reply to 来自RTX PRO 5000的碎碎念 on Tue, 09 Jun 2026 02:12:15 GMT]]></title><description><![CDATA[<p dir="auto"><a class="plugin-mentions-user plugin-mentions-a" href="/user/b9704037" aria-label="Profile: b9704037">@<bdi>b9704037</bdi></a> Q8或者FP8都测试了，显存是占满了，但是效率下降了。不开MTP，decode只有15t/s左右。MTP的话，因为显存占用更大，上下文挤占太多。FP8不开MTP只能开200k上下文。</p>
]]></description><link>https://lcz.me/post/5902</link><guid isPermaLink="true">https://lcz.me/post/5902</guid><dc:creator><![CDATA[kop wang]]></dc:creator><pubDate>Tue, 09 Jun 2026 02:12:15 GMT</pubDate></item><item><title><![CDATA[Reply to 来自RTX PRO 5000的碎碎念 on Tue, 09 Jun 2026 02:06:43 GMT]]></title><description><![CDATA[<p dir="auto"><a class="plugin-mentions-user plugin-mentions-a" href="/user/kop-wang" aria-label="Profile: kop-wang">@<bdi>kop-wang</bdi></a> 感覺可以上Q8試試看 應該可以把顯存吃乾抹淨<img src="https://lcz.me/assets/plugins/nodebb-plugin-emoji/emoji/android/1f633.png?v=d348ca29232" class="not-responsive emoji emoji-android emoji--flushed" style="height:23px;width:auto;vertical-align:middle" title=":flushed:" alt="😳" /> <img src="https://lcz.me/assets/plugins/nodebb-plugin-emoji/emoji/android/1f633.png?v=d348ca29232" class="not-responsive emoji emoji-android emoji--flushed" style="height:23px;width:auto;vertical-align:middle" title=":flushed:" alt="😳" /></p>
]]></description><link>https://lcz.me/post/5900</link><guid isPermaLink="true">https://lcz.me/post/5900</guid><dc:creator><![CDATA[b9704037]]></dc:creator><pubDate>Tue, 09 Jun 2026 02:06:43 GMT</pubDate></item></channel></rss>