来自RTX PRO 5000的碎碎念

kop wang

@b9704037 Q8或者FP8都测试了，显存是占满了，但是效率下降了。不开MTP，decode只有15t/s左右。MTP的话，因为显存占用更大，上下文挤占太多。FP8不开MTP只能开200k上下文。

Tony Wang

@kop-wang

27B Q6, 非MTP：prefill在1400t/s，decode速度在32t/s左右

这个数据比我想象的要低一点儿, 我以为能跑到50.

kop wang

@Tony-Wang llama-bench是可以的，但是实战其实跑不出来这个数据。只能说llama-bench是性能上限。

566656661

感謝測試

無意冒犯但這性能估計也有很大一部分沒壓榨乾淨

要不要嘗試一下vLLM來壓榨一下

kop wang

@566656661 当然欢迎交流，以下是我的FP8参数，您可以看看是否有什么值得优化的

~/.local/venvs/vllm/bin/vllm serve ~/.local/models/Qwen3.6-27B-FP8 \
  --port 8000 \
  --max-model-len 262144 \
  --gpu-memory-utilization 0.95 \
  --kv-cache-dtype int8_per_token_head \
  --reasoning-parser qwen3 \
  --dtype auto \
  --enable-auto-tool-choice \
  --tool-call-parser qwen3_xml \
  --served-model-name Qwen/Qwen3.6-27B

566656661

@kop-wang

不考慮坊間的nvfp4嘛？這是blackwell架構的精髓, 模型權重至少會少個10％以上, 雖說特定任務benchmark下精度較低, 如果害怕精度損失的話可以繼續用其他坊間的fp8模型 (Qwen官方沒有坊間玩得花, 坊間其他不多不少都會有些性能或vram優化)

然後不是太懂要用int 8 token head, 這東東給30系用比較合適, 畢竟Ampere沒有fp8, 論精度跟性能fp8比較好吧

還有慣用的mtp跟用cu130 nightly (v 0.20, blackwell優化), cu129 latest (v 0.22)這些比較常規的

kop wang

@566656661 感谢提点，我去尝试一下

applejuice

prefill在1400t/s，decode速度在32t/s左右。

这个有点慢啊？因为Q6 所以比较慢？
3090这种宽带,Q4 都1600t/s Prefill, 60t/s decode?
5000 pro 不应该至少2000t/s prefill , 80t/s decode?

williamlouis

不做视频生产力。压榨不压榨极限值没什么必要。够用就行了。我都是开功耗墙跑。这样噪音小了好多。

566656661

@williamlouis

感覺這不是壓不壓榨極限性能的問題, 而是這個性能好像連甜品位都還沒到的樣子

williamlouis

@566656661 看感觉尺度了。我的够用不是你的够用。得你感觉够用才是真够用。不是吗？

566656661

@williamlouis

也是

畢竟不是卡的所有人，只是個人覺得看到有性能還沒有釋放有點可惜而已

感覺有點像在德國的高速公路只跑標準120 (很快沒錯), 但是知道引擎還能再快一點, 極限在160到170, 想跑到140的樣子

williamlouis

我非常懒。所以很少折腾自己不需要的东西。

sirwang

不用多想，自己咬牙能买的起的最好的，就是好的。

stakira

想说现在很多机箱每个槽中间没有那一条，整体就是一个洞

mark

恭喜入坑 rtx pro5000. 3.6w 真的不便宜啊

mark

拍一个显卡照片看看, 让我们没钱买的, 也看看pro 5000的真容.

566656661

@mark

除了雕刻的文字變了, 中間的散熱塊變波紋形狀, 其他應該外表跟4500沒什麼分別吧?

b9704037

@kop-wang 稍微可惜一些, nvfp4應該行, 3.6萬現在回頭看好便宜阿, 5090也都快趕上這個價位了

fly86

vllm qwen3.6 27b fp8跑着还行，代码分析任务，当然了，这个图是最后生成文档时截的

抡锤者

来自RTX PRO 5000的碎碎念

1、购买理由

2、硬件安装

3、实际测试

4、使用体验

5、个人思考