来自RTX PRO 5000的碎碎念

Reply to 来自RTX PRO 5000的碎碎念 on Thu, 11 Jun 2026 04:03:26 GMT

b9704037 — Thu, 11 Jun 2026 04:03:26 GMT

@kop-wang 稍微可惜一些, nvfp4應該行, 3.6萬現在回頭看好便宜阿, 5090也都快趕上這個價位了

Reply to 来自RTX PRO 5000的碎碎念 on Wed, 10 Jun 2026 01:26:49 GMT

566656661 — Wed, 10 Jun 2026 01:26:49 GMT

@mark

除了雕刻的文字變了, 中間的散熱塊變波紋形狀, 其他應該外表跟4500沒什麼分別吧?

Reply to 来自RTX PRO 5000的碎碎念 on Wed, 10 Jun 2026 01:09:16 GMT

mark — Wed, 10 Jun 2026 01:09:16 GMT

拍一个显卡照片看看, 让我们没钱买的, 也看看pro 5000的真容.

Reply to 来自RTX PRO 5000的碎碎念 on Wed, 10 Jun 2026 01:08:19 GMT

mark — Wed, 10 Jun 2026 01:08:19 GMT

恭喜入坑 rtx pro5000. 3.6w 真的不便宜啊

Reply to 来自RTX PRO 5000的碎碎念 on Tue, 09 Jun 2026 14:04:03 GMT

stakira — Tue, 09 Jun 2026 14:04:03 GMT

想说现在很多机箱每个槽中间没有那一条，整体就是一个洞

Reply to 来自RTX PRO 5000的碎碎念 on Tue, 09 Jun 2026 10:54:31 GMT

sirwang — Tue, 09 Jun 2026 10:54:31 GMT

不用多想，自己咬牙能买的起的最好的，就是好的。

Reply to 来自RTX PRO 5000的碎碎念 on Tue, 09 Jun 2026 05:23:03 GMT

williamlouis — Tue, 09 Jun 2026 05:23:03 GMT

我非常懒。所以很少折腾自己不需要的东西。

Reply to 来自RTX PRO 5000的碎碎念 on Tue, 09 Jun 2026 05:11:22 GMT

566656661 — Tue, 09 Jun 2026 05:11:22 GMT

@williamlouis

也是

畢竟不是卡的所有人，只是個人覺得看到有性能還沒有釋放有點可惜而已

感覺有點像在德國的高速公路只跑標準120 (很快沒錯), 但是知道引擎還能再快一點, 極限在160到170, 想跑到140的樣子

Reply to 来自RTX PRO 5000的碎碎念 on Tue, 09 Jun 2026 04:58:19 GMT

williamlouis — Tue, 09 Jun 2026 04:58:19 GMT

@566656661 看感觉尺度了。我的够用不是你的够用。得你感觉够用才是真够用。不是吗？

Reply to 来自RTX PRO 5000的碎碎念 on Tue, 09 Jun 2026 04:54:07 GMT

566656661 — Tue, 09 Jun 2026 04:54:07 GMT

@williamlouis

感覺這不是壓不壓榨極限性能的問題, 而是這個性能好像連甜品位都還沒到的樣子

Reply to 来自RTX PRO 5000的碎碎念 on Tue, 09 Jun 2026 04:49:44 GMT

williamlouis — Tue, 09 Jun 2026 04:49:44 GMT

不做视频生产力。压榨不压榨极限值没什么必要。够用就行了。我都是开功耗墙跑。这样噪音小了好多。

Reply to 来自RTX PRO 5000的碎碎念 on Tue, 09 Jun 2026 03:11:28 GMT

applejuice — Tue, 09 Jun 2026 03:11:28 GMT

prefill在1400t/s，decode速度在32t/s左右。

这个有点慢啊？因为Q6 所以比较慢？
3090这种宽带,Q4 都1600t/s Prefill, 60t/s decode?
5000 pro 不应该至少2000t/s prefill , 80t/s decode?

Reply to 来自RTX PRO 5000的碎碎念 on Tue, 09 Jun 2026 03:10:53 GMT

kop wang — Tue, 09 Jun 2026 03:10:53 GMT

@566656661 感谢提点，我去尝试一下

Reply to 来自RTX PRO 5000的碎碎念 on Tue, 09 Jun 2026 02:38:01 GMT

566656661 — Tue, 09 Jun 2026 02:38:01 GMT

@kop-wang

不考慮坊間的nvfp4嘛？這是blackwell架構的精髓, 模型權重至少會少個10％以上, 雖說特定任務benchmark下精度較低, 如果害怕精度損失的話可以繼續用其他坊間的fp8模型 (Qwen官方沒有坊間玩得花, 坊間其他不多不少都會有些性能或vram優化)

然後不是太懂要用int 8 token head, 這東東給30系用比較合適, 畢竟Ampere沒有fp8, 論精度跟性能fp8比較好吧

還有慣用的mtp跟用cu130 nightly (v 0.20, blackwell優化), cu129 latest (v 0.22)這些比較常規的

Reply to 来自RTX PRO 5000的碎碎念 on Tue, 09 Jun 2026 02:27:23 GMT

kop wang — Tue, 09 Jun 2026 02:27:23 GMT

@566656661 当然欢迎交流，以下是我的FP8参数，您可以看看是否有什么值得优化的

~/.local/venvs/vllm/bin/vllm serve ~/.local/models/Qwen3.6-27B-FP8 \
  --port 8000 \
  --max-model-len 262144 \
  --gpu-memory-utilization 0.95 \
  --kv-cache-dtype int8_per_token_head \
  --reasoning-parser qwen3 \
  --dtype auto \
  --enable-auto-tool-choice \
  --tool-call-parser qwen3_xml \
  --served-model-name Qwen/Qwen3.6-27B

Reply to 来自RTX PRO 5000的碎碎念 on Tue, 09 Jun 2026 02:19:08 GMT

566656661 — Tue, 09 Jun 2026 02:19:08 GMT

感謝測試

無意冒犯但這性能估計也有很大一部分沒壓榨乾淨

要不要嘗試一下vLLM來壓榨一下

Reply to 来自RTX PRO 5000的碎碎念 on Tue, 09 Jun 2026 02:16:09 GMT

kop wang — Tue, 09 Jun 2026 02:16:09 GMT

@Tony-Wang llama-bench是可以的，但是实战其实跑不出来这个数据。只能说llama-bench是性能上限。

Reply to 来自RTX PRO 5000的碎碎念 on Tue, 09 Jun 2026 02:13:09 GMT

Tony Wang — Tue, 09 Jun 2026 02:13:09 GMT

@kop-wang

27B Q6, 非MTP：prefill在1400t/s，decode速度在32t/s左右

这个数据比我想象的要低一点儿, 我以为能跑到50.

Reply to 来自RTX PRO 5000的碎碎念 on Tue, 09 Jun 2026 02:12:15 GMT

kop wang — Tue, 09 Jun 2026 02:12:15 GMT

@b9704037 Q8或者FP8都测试了，显存是占满了，但是效率下降了。不开MTP，decode只有15t/s左右。MTP的话，因为显存占用更大，上下文挤占太多。FP8不开MTP只能开200k上下文。

Reply to 来自RTX PRO 5000的碎碎念 on Tue, 09 Jun 2026 02:06:43 GMT

b9704037 — Tue, 09 Jun 2026 02:06:43 GMT

@kop-wang 感覺可以上Q8試試看應該可以把顯存吃乾抹淨