論迷你電腦配合 RTX Pro 4500 的簡單測試, 以及Blackwell架構下的一些嘗試 (僅限Dense模型)

566656661

@CS6

Vulkan支持混合卡, 把sm86變成sm120應該就可以, 畢竟CS你應該也在用vulkan吧

B70的話還是避開吧, 這張卡很多測試情景都是用Intel自己docker image, 適用性可能無限趨近0

566656661

基準測試

vLLM cu130 nightly (0.20) -> v0.22.1 cu129, 其餘包括benchmark不變

之後測試如果沒再提及Docker Image變化請默認為 v0.22.1-cu129-ubuntu2404

~~打了瞌睡, 發現原來參數沒刪乾淨, 只能帶著舊參數 + 新docker image 跑了~~

測試如下

| model                                    |             test |               t/s |     peak t/s |          ttfr (ms) |       est_ppt (ms) |      e2e_ttft (ms) |
| :--------------------------------------- | ---------------: | ----------------: | -----------: | -----------------: | -----------------: | -----------------: |
| Huihui-Qwen3.6-27B-abliterated-NVFP4-MTP |           pp2048 | 4112.24 ± 2335.79 |              |   1000.79 ± 713.91 |    882.88 ± 713.91 |   1000.79 ± 713.91 |
| Huihui-Qwen3.6-27B-abliterated-NVFP4-MTP |            tg480 |      70.62 ± 0.93 | 90.67 ± 1.25 |                    |                    |                    |
| Huihui-Qwen3.6-27B-abliterated-NVFP4-MTP |   pp2048 @ d1000 |  6522.05 ± 180.65 |              |     585.81 ± 13.00 |     467.90 ± 13.00 |     585.81 ± 13.00 |
| Huihui-Qwen3.6-27B-abliterated-NVFP4-MTP |    tg480 @ d1000 |      72.00 ± 4.34 | 87.00 ± 0.82 |                    |                    |                    |
| Huihui-Qwen3.6-27B-abliterated-NVFP4-MTP |   pp2048 @ d5000 |  5716.09 ± 781.76 |              |   1377.22 ± 190.64 |   1259.31 ± 190.64 |   1377.22 ± 190.64 |
| Huihui-Qwen3.6-27B-abliterated-NVFP4-MTP |    tg480 @ d5000 |      71.20 ± 1.68 | 90.33 ± 3.40 |                    |                    |                    |
| Huihui-Qwen3.6-27B-abliterated-NVFP4-MTP |  pp2048 @ d10000 |   5791.35 ± 64.74 |              |    2198.74 ± 23.28 |    2080.84 ± 23.28 |    2198.74 ± 23.28 |
| Huihui-Qwen3.6-27B-abliterated-NVFP4-MTP |   tg480 @ d10000 |      70.74 ± 7.93 | 86.67 ± 4.19 |                    |                    |                    |
| Huihui-Qwen3.6-27B-abliterated-NVFP4-MTP |  pp2048 @ d20000 |    5015.72 ± 8.10 |              |     4513.90 ± 7.10 |     4395.99 ± 7.10 |     4515.13 ± 6.99 |
| Huihui-Qwen3.6-27B-abliterated-NVFP4-MTP |   tg480 @ d20000 |      68.54 ± 4.81 | 86.67 ± 3.68 |                    |                    |                    |
| Huihui-Qwen3.6-27B-abliterated-NVFP4-MTP |  pp2048 @ d50000 |    3643.75 ± 3.58 |              |   14402.48 ± 14.02 |   14284.58 ± 14.02 |   14404.87 ± 13.87 |
| Huihui-Qwen3.6-27B-abliterated-NVFP4-MTP |   tg480 @ d50000 |      71.21 ± 6.44 | 86.67 ± 1.25 |                    |                    |                    |
| Huihui-Qwen3.6-27B-abliterated-NVFP4-MTP | pp2048 @ d100000 |    2495.95 ± 3.04 |              |   41003.94 ± 49.73 |   40886.04 ± 49.73 |   41008.28 ± 49.60 |
| Huihui-Qwen3.6-27B-abliterated-NVFP4-MTP |  tg480 @ d100000 |      61.24 ± 2.76 | 81.33 ± 3.86 |                    |                    |                    |
| Huihui-Qwen3.6-27B-abliterated-NVFP4-MTP | pp2048 @ d150000 |    1898.18 ± 0.59 |              |   80220.31 ± 24.93 |   80102.40 ± 24.93 |   80226.48 ± 24.91 |
| Huihui-Qwen3.6-27B-abliterated-NVFP4-MTP |  tg480 @ d150000 |      63.09 ± 4.07 | 80.67 ± 4.92 |                    |                    |                    |
| Huihui-Qwen3.6-27B-abliterated-NVFP4-MTP | pp2048 @ d200000 |    1531.27 ± 1.25 |              | 132066.32 ± 107.58 | 131948.41 ± 107.58 | 132076.34 ± 108.43 |
| Huihui-Qwen3.6-27B-abliterated-NVFP4-MTP |  tg480 @ d200000 |      58.89 ± 1.49 | 76.67 ± 3.77 |                    |                    |                    |

GPT分析

指標	結論
`pp2048` / prefill t/s	`cu130-0.20` 全面較快
短 context	`cu130-0.20` 優勢最大，純 `pp2048` 約快 `88%`，`d1000` 約快 `25%`
中長 context	`cu130-0.20` 仍較快，但差距逐步縮小
`d50000` 以上	prefill 差距只剩約 `1% - 2%`
`ttfr` / `e2e_ttft`	`cu130-0.20` 較低，代表首 token 等待時間較短
`tg480` generation t/s	`cu129-0.22` 平均略快，`cu130-0.20` 約慢 `1.8% - 1.9%`
peak generation t/s	`cu129-0.22` 多數情況較高

看起來cu130 nightly或者說整個cu130是有特別針對blackwell做優化, cu129估計是針對30跟40系優化

566656661

@kop-wang

找到一個你可能感興趣的東西, 引用這位大神的文章

沒有理解錯的話應該算是不同quantization下模型的精度, 原型BF16, 原型FP8, AWQ量化的INT4, AWQ 4bit (類似GGUF Q4的概念), Autoround量化的INT4

部分任務好像NVFP4的精度還滿吃虧的

CS6

@566656661 我記得你好像有張 5090 ，PRO 4500 價位也差不多，你有比較過差異跟 CP 值嗎？

rolex lo

@566656661 大神看你用oclink 也有這個tks 我用底座 beelink pci 5.0 更加定了
就買4500 吧‍️
數據實測結果十分好，都肯定兩張R9700也達不到

身心錢包都要痛了

566656661

@CS6

我的是5090D版 (住香港), 而且香港現在5090D貴到快要到2萬中, 非D都起碼要3萬頭港幣了

差異的話我是沒特別留意, 畢竟5090D太多時候都是試驗品 + 日常使用

4500的fp16 tflops卡在5070ti 跟 5080中間, Prefill的話你可以用5070ti作爲基準加個5%左右吧.

至於CP嘛, 混合日常使用跟LLM肯定是5090更好, 怕功耗600w可以用afterburner降到最低400w左右, 引用一下這個Reddit Post, 性能損失如下:

CS6

感謝，我太久沒關注 N卡，還停留在舊價格

566656661

@rolex-lo

~~還沒調整好, INT 4估計還能更快~~

INT4不會更快, 但是可以運用Autoround配合turboquant 4bit nc 壓榨更多KV Cache 空間 (詳情看22樓)

2張R9700走TP 2用Oculink跟 PCIe 5.0 x8 混合使用估計會出事誒, Oculink只有PCIe 4.0 x4, PCIe 5.0 x8, 結果就是只能走PCIe 4.0 x4

CS6

@rolex-lo 我是一開始就打算雙卡，挑的主板支援 PCIe 5.0 x8 兩個...
你還是考慮單卡吧，不要重複消費

我這次已經浪費錢多賣了一組 DDR5 32*2 ram ，成本暴增

566656661

@CS6

其實我有想過RTX Pro 4500混合5090D一起使用, 畢竟兩張卡都是32GB, vLLM跑TP2不會有VRAM浪費

但是vLLM表明5090D會很大機會只有一半性能

CS6

@566656661 5090D 能送去華強北魔改嗎？

566656661

@CS6

如果像4090一樣應該可以...吧, 到時候我們就知道了

566656661

v0.22.1-cu129-ubuntu2404

VLLM_NVFP4_GEMM_BACKEND 因爲deprecated, 將由linear-backend自動選擇

VLLM_USE_FLASHINFER_MOE_FP4 因爲deprecated, 將由moe-backend自動選擇

測試結果

| model                                    |             test |               t/s |     peak t/s |          ttfr (ms) |       est_ppt (ms) |      e2e_ttft (ms) |
| :--------------------------------------- | ---------------: | ----------------: | -----------: | -----------------: | -----------------: | -----------------: |
| Huihui-Qwen3.6-27B-abliterated-NVFP4-MTP |           pp2048 | 3815.72 ± 2638.08 |              |   1066.49 ± 675.13 |    946.43 ± 675.13 |   1066.49 ± 675.13 |
| Huihui-Qwen3.6-27B-abliterated-NVFP4-MTP |            tg480 |      71.54 ± 3.67 | 89.33 ± 1.70 |                    |                    |                    |
| Huihui-Qwen3.6-27B-abliterated-NVFP4-MTP |   pp2048 @ d1000 |  7097.86 ± 469.13 |              |     551.38 ± 27.36 |     431.33 ± 27.36 |     551.38 ± 27.36 |
| Huihui-Qwen3.6-27B-abliterated-NVFP4-MTP |    tg480 @ d1000 |      72.91 ± 1.96 | 86.67 ± 2.05 |                    |                    |                    |
| Huihui-Qwen3.6-27B-abliterated-NVFP4-MTP |   pp2048 @ d5000 |  6293.28 ± 200.29 |              |    1241.33 ± 35.85 |    1121.28 ± 35.85 |    1241.33 ± 35.85 |
| Huihui-Qwen3.6-27B-abliterated-NVFP4-MTP |    tg480 @ d5000 |      71.79 ± 1.34 | 90.00 ± 0.82 |                    |                    |                    |
| Huihui-Qwen3.6-27B-abliterated-NVFP4-MTP |  pp2048 @ d10000 |   5764.98 ± 66.54 |              |    2210.31 ± 24.36 |    2090.26 ± 24.36 |    2210.31 ± 24.36 |
| Huihui-Qwen3.6-27B-abliterated-NVFP4-MTP |   tg480 @ d10000 |      71.77 ± 5.24 | 86.00 ± 5.35 |                    |                    |                    |
| Huihui-Qwen3.6-27B-abliterated-NVFP4-MTP |  pp2048 @ d20000 |    5020.15 ± 9.69 |              |     4512.04 ± 8.31 |     4391.99 ± 8.31 |     4513.21 ± 8.16 |
| Huihui-Qwen3.6-27B-abliterated-NVFP4-MTP |   tg480 @ d20000 |      74.68 ± 1.77 | 94.00 ± 2.16 |                    |                    |                    |
| Huihui-Qwen3.6-27B-abliterated-NVFP4-MTP |  pp2048 @ d50000 |    3634.37 ± 3.95 |              |   14441.41 ± 15.57 |   14321.36 ± 15.57 |   14444.10 ± 15.13 |
| Huihui-Qwen3.6-27B-abliterated-NVFP4-MTP |   tg480 @ d50000 |      65.42 ± 5.26 | 83.33 ± 7.41 |                    |                    |                    |
| Huihui-Qwen3.6-27B-abliterated-NVFP4-MTP | pp2048 @ d100000 |    2500.68 ± 0.47 |              |    40928.48 ± 7.63 |    40808.42 ± 7.63 |    40933.15 ± 7.29 |
| Huihui-Qwen3.6-27B-abliterated-NVFP4-MTP |  tg480 @ d100000 |      73.40 ± 4.21 | 85.00 ± 2.45 |                    |                    |                    |
| Huihui-Qwen3.6-27B-abliterated-NVFP4-MTP | pp2048 @ d150000 |    1900.32 ± 1.39 |              |   80132.00 ± 58.27 |   80011.94 ± 58.27 |   80138.64 ± 57.60 |
| Huihui-Qwen3.6-27B-abliterated-NVFP4-MTP |  tg480 @ d150000 |      67.87 ± 1.65 | 79.67 ± 3.30 |                    |                    |                    |
| Huihui-Qwen3.6-27B-abliterated-NVFP4-MTP | pp2048 @ d200000 |    1535.79 ± 1.74 |              | 131680.08 ± 149.90 | 131560.02 ± 149.90 | 131688.59 ± 149.41 |
| Huihui-Qwen3.6-27B-abliterated-NVFP4-MTP |  tg480 @ d200000 |      56.88 ± 2.29 | 73.33 ± 2.05 |                    |                    |                    |

GPT結論

結論

cu130-0.20 的主要優勢在 prefill throughput 和 TTFT，特別是短到中等 context 的 prompt processing。

更新後的 cu129-0.22 在 token generation / decode throughput 上比之前更強，平均 tg480 generation t/s 約比 cu130-0.20 高 4.6%。

整體而言，若 workload 偏 prompt-heavy、RAG、長 prompt prefill，cu130-0.20 較合適；若 workload 偏長時間生成 token，cu129-0.22 較合適。

CS6

@566656661 可以許願 https://microsoft.github.io/TRELLIS.2/ 測試嗎？
剛剛跑 ROCm版堪用，但踩雷不少，等下也丟上來
https://lcz.me/post/5275

566656661

以下是研究途中的碎碎唸, 不感興趣的可以不看

碎碎唸1

看了蠻多文件跟大神文章, 有幾個值得留意的地方

Blackwell架構分成了Consumer Blackwell (sm 12x) 跟 Data Center Blackwell (sm 10x)

所有Geforce, RTX Pro, DGX Spark, RTX Spark都歸屬在Consumer Blackwell

其中最大的分別就是在於sm 12x缺少了tcgen05, 這也是Flash Attention 4裏面的核心技術

底層MMA邏輯裏用的還是SM8X, 也就是目前的Flash Attention 2

好家夥, 老黃這算不算是在欺詐啊...

https://docs.vllm.ai/en/stable/configuration/env_vars/

v0.22 cu129可以在--linear-backend (前身VLLM_NVFP4_GEMM_BACKEND)使用flashinfer-b12x而不是flashinfer-cutlass

MoE模型 (Qwen 3.6 35BA3B 跟 Gemma 4 26BA4B) 可以通過在--moe-backend 設置flashinfer_b12x

這個是特意為sm 12x架構優化的GEMM内核

約有30%throughput增長, https://github.com/vllm-project/vllm/pull/39634

這個我有點興趣先再試試看

碎碎唸2 (吐槽)

在一邊看vLLM文件一邊跑去問了Gemini, 講明了是Blackwell架構,居然還給了個VLLM_MXFP4_BACKEND=marlin, 先不説直接無視掉NVFP4, marlin是給沒有FP4硬件加速的啊... (NVFP4或者MXFP4都可用)

VLLM_FLASHINFER_MOE_BACKEND還給了throughput這個預設參數, 也沒改成--moe-backend flashinfer_cutlass (雖然這個在27b 模型沒用到)

錯誤示範, 不要學

docker run -d \
  --name vllm-Huihui-Qwen3.6-27B-abliterated-NVFP4-MTP \
  (中間省略)
  -e SERVED_MODEL_NAME="Huihui-Qwen3.6-27B-abliterated-NVFP4-MTP" \
  -e VLLM_ATTENTION_BACKEND="FLASHINFER" \
  -e VLLM_MXFP4_BACKEND="marlin" \
  -e VLLM_FLASHINFER_MOE_BACKEND="throughput" \
  -e VLLM_USE_FLASHINFER_SAMPLER="1" \
  -e VLLM_EXTRA_ARGS=
  (以下省略)

rolex lo

@cs6 @566656661 不用擔心，我目的是單卡‍️
就是因為單卡所以更想買 4500

R9700雙卡只是對比兩張R9700 都不如一張4500 效能

小弟也是在香港一張4500價格等於兩張r9700了...所以更想知道是否值得投資...
不竟是兩倍價格..痛

terry

@566656661 香港便宜这么多啊，能不能带过来，还是要补税？这特么暴利啊

566656661

@kop-wang

基於這個文章我也特意跑去試試INT4, 只能說老黃沒有把最後的良心都扔掉, 如果NVFP4比INT4沒有更多優勢的話, 真的要駡街了

vLLM cu130 nightly (0.20)

啓動跟測試參數跟1樓一樣, 單純換了個模型

| model                                     |             test |              t/s |     peak t/s |          ttfr (ms) |       est_ppt (ms) |      e2e_ttft (ms) |
| :---------------------------------------- | ---------------: | ---------------: | -----------: | -----------------: | -----------------: | -----------------: |
| Qwen3.6-27B-heretic-v2-mtp-int4-AutoRound |           pp2048 | 1982.15 ± 894.28 |              |   1551.80 ± 975.03 |   1473.35 ± 975.03 |   1551.80 ± 975.03 |
| Qwen3.6-27B-heretic-v2-mtp-int4-AutoRound |            tg480 |     70.03 ± 2.28 | 87.67 ± 1.25 |                    |                    |                    |
| Qwen3.6-27B-heretic-v2-mtp-int4-AutoRound |   pp2048 @ d1000 |  2639.16 ± 40.73 |              |    1233.51 ± 17.91 |    1155.06 ± 17.91 |    1233.51 ± 17.91 |
| Qwen3.6-27B-heretic-v2-mtp-int4-AutoRound |    tg480 @ d1000 |     71.09 ± 5.72 | 91.00 ± 5.89 |                    |                    |                    |
| Qwen3.6-27B-heretic-v2-mtp-int4-AutoRound |   pp2048 @ d5000 |  2529.19 ± 13.93 |              |    2865.45 ± 15.52 |    2787.01 ± 15.52 |    2865.45 ± 15.52 |
| Qwen3.6-27B-heretic-v2-mtp-int4-AutoRound |    tg480 @ d5000 |     71.72 ± 1.86 | 91.33 ± 7.85 |                    |                    |                    |
| Qwen3.6-27B-heretic-v2-mtp-int4-AutoRound |  pp2048 @ d10000 |   2433.99 ± 3.22 |              |     5028.07 ± 6.36 |     4949.63 ± 6.36 |     5028.07 ± 6.36 |
| Qwen3.6-27B-heretic-v2-mtp-int4-AutoRound |   tg480 @ d10000 |     71.66 ± 3.22 | 90.67 ± 1.70 |                    |                    |                    |
| Qwen3.6-27B-heretic-v2-mtp-int4-AutoRound |  pp2048 @ d20000 |   2293.80 ± 0.84 |              |     9690.43 ± 3.52 |     9611.99 ± 3.52 |     9691.58 ± 3.56 |
| Qwen3.6-27B-heretic-v2-mtp-int4-AutoRound |   tg480 @ d20000 |     72.64 ± 2.80 | 88.67 ± 8.22 |                    |                    |                    |
| Qwen3.6-27B-heretic-v2-mtp-int4-AutoRound |  pp2048 @ d50000 |   1948.24 ± 1.20 |              |   26793.70 ± 16.21 |   26715.25 ± 16.21 |   26796.17 ± 16.70 |
| Qwen3.6-27B-heretic-v2-mtp-int4-AutoRound |   tg480 @ d50000 |     70.21 ± 5.02 | 85.67 ± 6.80 |                    |                    |                    |
| Qwen3.6-27B-heretic-v2-mtp-int4-AutoRound | pp2048 @ d100000 |   1567.89 ± 0.72 |              |   65164.49 ± 30.24 |   65086.05 ± 30.24 |   65168.84 ± 29.64 |
| Qwen3.6-27B-heretic-v2-mtp-int4-AutoRound |  tg480 @ d100000 |     62.20 ± 1.73 | 84.67 ± 2.62 |                    |                    |                    |
| Qwen3.6-27B-heretic-v2-mtp-int4-AutoRound | pp2048 @ d150000 |   1313.09 ± 0.56 |              |  115872.26 ± 49.39 |  115793.81 ± 49.39 |  115879.31 ± 48.59 |
| Qwen3.6-27B-heretic-v2-mtp-int4-AutoRound |  tg480 @ d150000 |     59.53 ± 3.51 | 80.33 ± 2.05 |                    |                    |                    |
| Qwen3.6-27B-heretic-v2-mtp-int4-AutoRound | pp2048 @ d200000 |   1128.87 ± 0.81 |              | 179060.75 ± 127.67 | 178982.30 ± 127.67 | 179069.38 ± 127.94 |
| Qwen3.6-27B-heretic-v2-mtp-int4-AutoRound |  tg480 @ d200000 |     54.24 ± 1.72 | 74.33 ± 2.62 |                    |                    |                    |

GPT分析

指標	結論
測試組合	`cu130-0.20-int-4-autoround-mtp` 對比 `cu130-0.20-nvfp4-mtp`
`pp2048` / prefill t/s	NVFP4 明顯較快；INT4 AutoRound 平均 prefill 約慢 `51.5%`
短 context	INT4 AutoRound 在純 `pp2048` 約慢 `74.4%`，`d1000` 約慢 `67.6%`
中等 context	`d5000` 至 `d20000`，INT4 AutoRound prefill 約慢 `55% - 62%`
長 context	`d50000` 以上 INT4 AutoRound 仍較慢，但差距縮小到約 `27% - 47%`
`ttfr` / `e2e_ttft`	NVFP4 明顯較低；INT4 AutoRound 平均 TTFT 約高 `124%`
`tg480` generation t/s	INT4 AutoRound 平均約快 `1.2%`，但不是全面勝出
peak generation t/s	INT4 AutoRound 平均約快 `4.9%`，多數 context 的 peak 較高
長 context generation	在 `d150000` 和 `d200000`，INT4 AutoRound 的平均 generation t/s 反而低於 NVFP4

結論

在 cu130-0.20 nightly 下，NVFP4 MTP 的主要優勢非常清楚：prefill throughput 和 TTFT 明顯好過 INT4 AutoRound MTP，尤其短到中等 context 差距很大。

INT4 AutoRound MTP 的優勢主要在 decode / generation，平均 tg480 稍快約 1.2%，peak generation 約快 4.9%，但長 context 下這個優勢不穩定，d150000 和 d200000 反而較慢。

整體而言，如果 workload 是 prompt-heavy、RAG、長 prompt prefill 或重視首 token 延遲，NVFP4 MTP 明顯較合適。若 workload 幾乎完全是 decode-heavy，而且可以接受較慢 TTFT，INT4 AutoRound MTP 才有比較價值。

理論上KV Cache可以透過使用eugr/spark-vllm-docker的docker image用tq-t4nc來進一步降低 (FP8的一半), 引用vLLm自己的文章

Pareto frontier for Qwen3-30B-A3B-Instruct-2507 on 2xH100. FP8 matches BF16 throughput at 2x capacity. TurboQuant variants extend capacity to 2.3-3.7x but at 40-52% throughput reduction.

精度上也算可以接受吧

566656661

@terry

當然沒有這麽暴利的事情啊XD

香港便宜是因爲不用交電子稅, 我有個群友之前想繞過代理, 把自己的4090帶去華强北修結果那張卡被扣押, 不給稅不能過, 儘管什麽包裝都沒有并且也說是自己用, 最後還是走代理送修了

便宜的卡估計會一隻眼開一隻眼閉, 但是這些貴價卡估計沒戲了

566656661

碎碎唸3

--linear-backend估計因爲太新

用cu130 nightly跑會吵沒有這個選項

用cu129 v0.22.1跑會說cu129 不支持cu130的b12x

這個可能要等cu130出v0.22了

~~可是moe在v0.22又支持是什麽鬼~~

抡锤者

論迷你電腦配合 RTX Pro 4500 的簡單測試, 以及Blackwell架構下的一些嘗試 (僅限Dense模型)

碎碎唸, 講一下參數選擇邏輯

碎碎唸1

碎碎唸2 (吐槽)

碎碎唸1

碎碎唸2 (吐槽)

碎碎唸3

抡锤者

論 迷你電腦 配合 RTX Pro 4500 的簡單測試, 以及Blackwell架構下的一些嘗試 (僅限Dense模型)

碎碎唸, 講一下參數選擇邏輯

碎碎唸1

碎碎唸2 (吐槽)

碎碎唸1

碎碎唸2 (吐槽)

碎碎唸3

論迷你電腦配合 RTX Pro 4500 的簡單測試, 以及Blackwell架構下的一些嘗試 (僅限Dense模型)