論迷你電腦配合 RTX Pro 4500 的簡單測試, 以及Blackwell架構下的一些嘗試

Reply to 論迷你電腦配合 RTX Pro 4500 的簡單測試, 以及Blackwell架構下的一些嘗試 on Fri, 05 Jun 2026 23:16:14 GMT

CS6 — Fri, 05 Jun 2026 23:16:14 GMT

@566656661 可以許願 https://microsoft.github.io/TRELLIS.2/ 測試嗎？
剛剛跑 ROCm版堪用，但踩雷不少，等下也丟上來
https://lcz.me/post/5275

Reply to 論迷你電腦配合 RTX Pro 4500 的簡單測試, 以及Blackwell架構下的一些嘗試 on Fri, 05 Jun 2026 19:09:28 GMT

566656661 — Fri, 05 Jun 2026 19:09:28 GMT

v0.22.1-cu129-ubuntu2404

VLLM_NVFP4_GEMM_BACKEND 因爲deprecated, 將由linear-backend自動選擇

VLLM_USE_FLASHINFER_MOE_FP4 因爲deprecated, 將由moe-backend自動選擇

測試結果

| model                                    |             test |               t/s |     peak t/s |          ttfr (ms) |       est_ppt (ms) |      e2e_ttft (ms) |
| :--------------------------------------- | ---------------: | ----------------: | -----------: | -----------------: | -----------------: | -----------------: |
| Huihui-Qwen3.6-27B-abliterated-NVFP4-MTP |           pp2048 | 3815.72 ± 2638.08 |              |   1066.49 ± 675.13 |    946.43 ± 675.13 |   1066.49 ± 675.13 |
| Huihui-Qwen3.6-27B-abliterated-NVFP4-MTP |            tg480 |      71.54 ± 3.67 | 89.33 ± 1.70 |                    |                    |                    |
| Huihui-Qwen3.6-27B-abliterated-NVFP4-MTP |   pp2048 @ d1000 |  7097.86 ± 469.13 |              |     551.38 ± 27.36 |     431.33 ± 27.36 |     551.38 ± 27.36 |
| Huihui-Qwen3.6-27B-abliterated-NVFP4-MTP |    tg480 @ d1000 |      72.91 ± 1.96 | 86.67 ± 2.05 |                    |                    |                    |
| Huihui-Qwen3.6-27B-abliterated-NVFP4-MTP |   pp2048 @ d5000 |  6293.28 ± 200.29 |              |    1241.33 ± 35.85 |    1121.28 ± 35.85 |    1241.33 ± 35.85 |
| Huihui-Qwen3.6-27B-abliterated-NVFP4-MTP |    tg480 @ d5000 |      71.79 ± 1.34 | 90.00 ± 0.82 |                    |                    |                    |
| Huihui-Qwen3.6-27B-abliterated-NVFP4-MTP |  pp2048 @ d10000 |   5764.98 ± 66.54 |              |    2210.31 ± 24.36 |    2090.26 ± 24.36 |    2210.31 ± 24.36 |
| Huihui-Qwen3.6-27B-abliterated-NVFP4-MTP |   tg480 @ d10000 |      71.77 ± 5.24 | 86.00 ± 5.35 |                    |                    |                    |
| Huihui-Qwen3.6-27B-abliterated-NVFP4-MTP |  pp2048 @ d20000 |    5020.15 ± 9.69 |              |     4512.04 ± 8.31 |     4391.99 ± 8.31 |     4513.21 ± 8.16 |
| Huihui-Qwen3.6-27B-abliterated-NVFP4-MTP |   tg480 @ d20000 |      74.68 ± 1.77 | 94.00 ± 2.16 |                    |                    |                    |
| Huihui-Qwen3.6-27B-abliterated-NVFP4-MTP |  pp2048 @ d50000 |    3634.37 ± 3.95 |              |   14441.41 ± 15.57 |   14321.36 ± 15.57 |   14444.10 ± 15.13 |
| Huihui-Qwen3.6-27B-abliterated-NVFP4-MTP |   tg480 @ d50000 |      65.42 ± 5.26 | 83.33 ± 7.41 |                    |                    |                    |
| Huihui-Qwen3.6-27B-abliterated-NVFP4-MTP | pp2048 @ d100000 |    2500.68 ± 0.47 |              |    40928.48 ± 7.63 |    40808.42 ± 7.63 |    40933.15 ± 7.29 |
| Huihui-Qwen3.6-27B-abliterated-NVFP4-MTP |  tg480 @ d100000 |      73.40 ± 4.21 | 85.00 ± 2.45 |                    |                    |                    |
| Huihui-Qwen3.6-27B-abliterated-NVFP4-MTP | pp2048 @ d150000 |    1900.32 ± 1.39 |              |   80132.00 ± 58.27 |   80011.94 ± 58.27 |   80138.64 ± 57.60 |
| Huihui-Qwen3.6-27B-abliterated-NVFP4-MTP |  tg480 @ d150000 |      67.87 ± 1.65 | 79.67 ± 3.30 |                    |                    |                    |
| Huihui-Qwen3.6-27B-abliterated-NVFP4-MTP | pp2048 @ d200000 |    1535.79 ± 1.74 |              | 131680.08 ± 149.90 | 131560.02 ± 149.90 | 131688.59 ± 149.41 |
| Huihui-Qwen3.6-27B-abliterated-NVFP4-MTP |  tg480 @ d200000 |      56.88 ± 2.29 | 73.33 ± 2.05 |                    |                    |                    |

GPT結論

結論

cu130-0.20 的主要優勢在 prefill throughput 和 TTFT，特別是短到中等 context 的 prompt processing。

更新後的 cu129-0.22 在 token generation / decode throughput 上比之前更強，平均 tg480 generation t/s 約比 cu130-0.20 高 4.6%。

整體而言，若 workload 偏 prompt-heavy、RAG、長 prompt prefill，cu130-0.20 較合適；若 workload 偏長時間生成 token，cu129-0.22 較合適。

Reply to 論迷你電腦配合 RTX Pro 4500 的簡單測試, 以及Blackwell架構下的一些嘗試 on Fri, 05 Jun 2026 18:32:00 GMT

566656661 — Fri, 05 Jun 2026 18:32:00 GMT

@CS6

如果像4090一樣應該可以...吧, 到時候我們就知道了

Reply to 論迷你電腦配合 RTX Pro 4500 的簡單測試, 以及Blackwell架構下的一些嘗試 on Fri, 05 Jun 2026 18:27:02 GMT

CS6 — Fri, 05 Jun 2026 18:27:02 GMT

@566656661 5090D 能送去華強北魔改嗎？

Reply to 論迷你電腦配合 RTX Pro 4500 的簡單測試, 以及Blackwell架構下的一些嘗試 on Fri, 05 Jun 2026 18:26:30 GMT

566656661 — Fri, 05 Jun 2026 18:26:30 GMT

@CS6

其實我有想過RTX Pro 4500混合5090D一起使用, 畢竟兩張卡都是32GB, vLLM跑TP2不會有VRAM浪費

但是vLLM表明5090D會很大機會只有一半性能

Reply to 論迷你電腦配合 RTX Pro 4500 的簡單測試, 以及Blackwell架構下的一些嘗試 on Fri, 05 Jun 2026 18:26:11 GMT

CS6 — Fri, 05 Jun 2026 18:26:11 GMT

@rolex-lo 我是一開始就打算雙卡，挑的主板支援 PCIe 5.0 x8 兩個...
你還是考慮單卡吧，不要重複消費

我這次已經浪費錢多賣了一組 DDR5 32*2 ram ，成本暴增

Reply to 論迷你電腦配合 RTX Pro 4500 的簡單測試, 以及Blackwell架構下的一些嘗試 on Fri, 05 Jun 2026 18:21:23 GMT

566656661 — Fri, 05 Jun 2026 18:21:23 GMT

@rolex-lo

還沒調整好, INT 4估計還能更快

2張R9700走TP 2用Oculink跟 PCIe 5.0 x8 混合使用估計會出事誒, Oculink只有PCIe 4.0 x4, PCIe 5.0 x8, 結果就是只能走PCIe 4.0 x4

Reply to 論迷你電腦配合 RTX Pro 4500 的簡單測試, 以及Blackwell架構下的一些嘗試 on Fri, 05 Jun 2026 18:19:11 GMT

CS6 — Fri, 05 Jun 2026 18:19:11 GMT

感謝，我太久沒關注 N卡，還停留在舊價格

Reply to 論迷你電腦配合 RTX Pro 4500 的簡單測試, 以及Blackwell架構下的一些嘗試 on Fri, 05 Jun 2026 18:17:17 GMT

566656661 — Fri, 05 Jun 2026 18:17:17 GMT

@CS6

我的是5090D版 (住香港), 而且香港現在5090D貴到快要到2萬中, 非D都起碼要3萬頭港幣了

差異的話我是沒特別留意, 畢竟5090D太多時候都是試驗品 + 日常使用

4500的fp16 tflops卡在5070ti 跟 5080中間, Prefill的話你可以用5070ti作爲基準加個5%左右吧.

至於CP嘛, 混合日常使用跟LLM肯定是5090更好, 怕功耗600w可以用afterburner降到最低400w左右, 引用一下這個Reddit Post, 性能損失如下:

Reply to 論迷你電腦配合 RTX Pro 4500 的簡單測試, 以及Blackwell架構下的一些嘗試 on Fri, 05 Jun 2026 18:09:10 GMT

rolex lo — Fri, 05 Jun 2026 18:09:10 GMT

@566656661 大神看你用oclink 也有這個tks 我用底座 beelink pci 5.0 更加定了
就買4500 吧‍️
數據實測結果十分好，都肯定兩張R9700也達不到

身心錢包都要痛了

Reply to 論迷你電腦配合 RTX Pro 4500 的簡單測試, 以及Blackwell架構下的一些嘗試 on Fri, 05 Jun 2026 18:03:33 GMT

CS6 — Fri, 05 Jun 2026 18:03:33 GMT

@566656661 我記得你好像有張 5090 ，PRO 4500 價位也差不多，你有比較過差異跟 CP 值嗎？

Reply to 論迷你電腦配合 RTX Pro 4500 的簡單測試, 以及Blackwell架構下的一些嘗試 on Fri, 05 Jun 2026 18:02:20 GMT

566656661 — Fri, 05 Jun 2026 18:02:20 GMT

@kop-wang

找到一個你可能感興趣的東西, 引用這位大神的文章

沒有理解錯的話應該算是不同quantization下模型的精度, 原型BF16, 原型FP8, AWQ量化的INT4, AWQ 4bit (類似GGUF Q4的概念), Autoround量化的INT4

部分任務好像NVFP4的精度還滿吃虧的

Reply to 論迷你電腦配合 RTX Pro 4500 的簡單測試, 以及Blackwell架構下的一些嘗試 on Fri, 05 Jun 2026 19:29:03 GMT

566656661 — Fri, 05 Jun 2026 19:29:03 GMT

基準測試

vLLM cu130 nightly (0.20) -> v0.22.1 cu129, 其餘包括benchmark不變

之後測試如果沒再提及Docker Image變化請默認為 v0.22.1-cu129-ubuntu2404

~~打了瞌睡, 發現原來參數沒刪乾淨, 只能帶著舊參數 + 新docker image 跑了~~

測試如下

| model                                    |             test |               t/s |     peak t/s |          ttfr (ms) |       est_ppt (ms) |      e2e_ttft (ms) |
| :--------------------------------------- | ---------------: | ----------------: | -----------: | -----------------: | -----------------: | -----------------: |
| Huihui-Qwen3.6-27B-abliterated-NVFP4-MTP |           pp2048 | 4112.24 ± 2335.79 |              |   1000.79 ± 713.91 |    882.88 ± 713.91 |   1000.79 ± 713.91 |
| Huihui-Qwen3.6-27B-abliterated-NVFP4-MTP |            tg480 |      70.62 ± 0.93 | 90.67 ± 1.25 |                    |                    |                    |
| Huihui-Qwen3.6-27B-abliterated-NVFP4-MTP |   pp2048 @ d1000 |  6522.05 ± 180.65 |              |     585.81 ± 13.00 |     467.90 ± 13.00 |     585.81 ± 13.00 |
| Huihui-Qwen3.6-27B-abliterated-NVFP4-MTP |    tg480 @ d1000 |      72.00 ± 4.34 | 87.00 ± 0.82 |                    |                    |                    |
| Huihui-Qwen3.6-27B-abliterated-NVFP4-MTP |   pp2048 @ d5000 |  5716.09 ± 781.76 |              |   1377.22 ± 190.64 |   1259.31 ± 190.64 |   1377.22 ± 190.64 |
| Huihui-Qwen3.6-27B-abliterated-NVFP4-MTP |    tg480 @ d5000 |      71.20 ± 1.68 | 90.33 ± 3.40 |                    |                    |                    |
| Huihui-Qwen3.6-27B-abliterated-NVFP4-MTP |  pp2048 @ d10000 |   5791.35 ± 64.74 |              |    2198.74 ± 23.28 |    2080.84 ± 23.28 |    2198.74 ± 23.28 |
| Huihui-Qwen3.6-27B-abliterated-NVFP4-MTP |   tg480 @ d10000 |      70.74 ± 7.93 | 86.67 ± 4.19 |                    |                    |                    |
| Huihui-Qwen3.6-27B-abliterated-NVFP4-MTP |  pp2048 @ d20000 |    5015.72 ± 8.10 |              |     4513.90 ± 7.10 |     4395.99 ± 7.10 |     4515.13 ± 6.99 |
| Huihui-Qwen3.6-27B-abliterated-NVFP4-MTP |   tg480 @ d20000 |      68.54 ± 4.81 | 86.67 ± 3.68 |                    |                    |                    |
| Huihui-Qwen3.6-27B-abliterated-NVFP4-MTP |  pp2048 @ d50000 |    3643.75 ± 3.58 |              |   14402.48 ± 14.02 |   14284.58 ± 14.02 |   14404.87 ± 13.87 |
| Huihui-Qwen3.6-27B-abliterated-NVFP4-MTP |   tg480 @ d50000 |      71.21 ± 6.44 | 86.67 ± 1.25 |                    |                    |                    |
| Huihui-Qwen3.6-27B-abliterated-NVFP4-MTP | pp2048 @ d100000 |    2495.95 ± 3.04 |              |   41003.94 ± 49.73 |   40886.04 ± 49.73 |   41008.28 ± 49.60 |
| Huihui-Qwen3.6-27B-abliterated-NVFP4-MTP |  tg480 @ d100000 |      61.24 ± 2.76 | 81.33 ± 3.86 |                    |                    |                    |
| Huihui-Qwen3.6-27B-abliterated-NVFP4-MTP | pp2048 @ d150000 |    1898.18 ± 0.59 |              |   80220.31 ± 24.93 |   80102.40 ± 24.93 |   80226.48 ± 24.91 |
| Huihui-Qwen3.6-27B-abliterated-NVFP4-MTP |  tg480 @ d150000 |      63.09 ± 4.07 | 80.67 ± 4.92 |                    |                    |                    |
| Huihui-Qwen3.6-27B-abliterated-NVFP4-MTP | pp2048 @ d200000 |    1531.27 ± 1.25 |              | 132066.32 ± 107.58 | 131948.41 ± 107.58 | 132076.34 ± 108.43 |
| Huihui-Qwen3.6-27B-abliterated-NVFP4-MTP |  tg480 @ d200000 |      58.89 ± 1.49 | 76.67 ± 3.77 |                    |                    |                    |

GPT分析

指標	結論
`pp2048` / prefill t/s	`cu130-0.20` 全面較快
短 context	`cu130-0.20` 優勢最大，純 `pp2048` 約快 `88%`，`d1000` 約快 `25%`
中長 context	`cu130-0.20` 仍較快，但差距逐步縮小
`d50000` 以上	prefill 差距只剩約 `1% - 2%`
`ttfr` / `e2e_ttft`	`cu130-0.20` 較低，代表首 token 等待時間較短
`tg480` generation t/s	`cu129-0.22` 平均略快，`cu130-0.20` 約慢 `1.8% - 1.9%`
peak generation t/s	`cu129-0.22` 多數情況較高

看起來cu130 nightly或者說整個cu130是有特別針對blackwell做優化, cu129估計是針對30跟40系優化

Reply to 論迷你電腦配合 RTX Pro 4500 的簡單測試, 以及Blackwell架構下的一些嘗試 on Fri, 05 Jun 2026 17:23:31 GMT

566656661 — Fri, 05 Jun 2026 17:23:31 GMT

@CS6

Vulkan支持混合卡, 把sm86變成sm120應該就可以, 畢竟CS你應該也在用vulkan吧

B70的話還是避開吧, 這張卡很多測試情景都是用Intel自己docker image, 適用性可能無限趨近0

Reply to 論迷你電腦配合 RTX Pro 4500 的簡單測試, 以及Blackwell架構下的一些嘗試 on Fri, 05 Jun 2026 17:13:34 GMT

CS6 — Fri, 05 Jun 2026 17:13:34 GMT

@566656661 單卡25萬左右還是太硬了，我的微薄月薪還要先扣 ai 税，除非有額外的收入可以回本，我目前已經有一張 R9700 可以玩，目前是在考慮第二張可以選 R9700 或是 B70 或是捏一下上 Pro 4500

Reply to 論迷你電腦配合 RTX Pro 4500 的簡單測試, 以及Blackwell架構下的一些嘗試 on Fri, 05 Jun 2026 17:02:31 GMT

566656661 — Fri, 05 Jun 2026 17:02:31 GMT

@CS6

笑死, 不過有預算的話上RTX Pro 5000吧, Pro 4500 其實比較冷門點

Reply to 論迷你電腦配合 RTX Pro 4500 的簡單測試, 以及Blackwell架構下的一些嘗試 on Fri, 05 Jun 2026 17:01:02 GMT

CS6 — Fri, 05 Jun 2026 17:01:02 GMT

你讓我對 4500 心動了

論 迷你電腦 配合 RTX Pro 4500 的簡單測試, 以及Blackwell架構下的一些嘗試

Reply to 論 迷你電腦 配合 RTX Pro 4500 的簡單測試, 以及Blackwell架構下的一些嘗試 on Fri, 05 Jun 2026 23:16:14 GMT

Reply to 論 迷你電腦 配合 RTX Pro 4500 的簡單測試, 以及Blackwell架構下的一些嘗試 on Fri, 05 Jun 2026 19:09:28 GMT

Reply to 論 迷你電腦 配合 RTX Pro 4500 的簡單測試, 以及Blackwell架構下的一些嘗試 on Fri, 05 Jun 2026 18:32:00 GMT

Reply to 論 迷你電腦 配合 RTX Pro 4500 的簡單測試, 以及Blackwell架構下的一些嘗試 on Fri, 05 Jun 2026 18:27:02 GMT

Reply to 論 迷你電腦 配合 RTX Pro 4500 的簡單測試, 以及Blackwell架構下的一些嘗試 on Fri, 05 Jun 2026 18:26:30 GMT

Reply to 論 迷你電腦 配合 RTX Pro 4500 的簡單測試, 以及Blackwell架構下的一些嘗試 on Fri, 05 Jun 2026 18:26:11 GMT

Reply to 論 迷你電腦 配合 RTX Pro 4500 的簡單測試, 以及Blackwell架構下的一些嘗試 on Fri, 05 Jun 2026 18:21:23 GMT

Reply to 論 迷你電腦 配合 RTX Pro 4500 的簡單測試, 以及Blackwell架構下的一些嘗試 on Fri, 05 Jun 2026 18:19:11 GMT

Reply to 論 迷你電腦 配合 RTX Pro 4500 的簡單測試, 以及Blackwell架構下的一些嘗試 on Fri, 05 Jun 2026 18:17:17 GMT

Reply to 論 迷你電腦 配合 RTX Pro 4500 的簡單測試, 以及Blackwell架構下的一些嘗試 on Fri, 05 Jun 2026 18:09:10 GMT

Reply to 論 迷你電腦 配合 RTX Pro 4500 的簡單測試, 以及Blackwell架構下的一些嘗試 on Fri, 05 Jun 2026 18:03:33 GMT

Reply to 論 迷你電腦 配合 RTX Pro 4500 的簡單測試, 以及Blackwell架構下的一些嘗試 on Fri, 05 Jun 2026 18:02:20 GMT

Reply to 論 迷你電腦 配合 RTX Pro 4500 的簡單測試, 以及Blackwell架構下的一些嘗試 on Fri, 05 Jun 2026 19:29:03 GMT

Reply to 論 迷你電腦 配合 RTX Pro 4500 的簡單測試, 以及Blackwell架構下的一些嘗試 on Fri, 05 Jun 2026 17:23:31 GMT

Reply to 論 迷你電腦 配合 RTX Pro 4500 的簡單測試, 以及Blackwell架構下的一些嘗試 on Fri, 05 Jun 2026 17:13:34 GMT

Reply to 論 迷你電腦 配合 RTX Pro 4500 的簡單測試, 以及Blackwell架構下的一些嘗試 on Fri, 05 Jun 2026 17:02:31 GMT

Reply to 論 迷你電腦 配合 RTX Pro 4500 的簡單測試, 以及Blackwell架構下的一些嘗試 on Fri, 05 Jun 2026 17:01:02 GMT

論迷你電腦配合 RTX Pro 4500 的簡單測試, 以及Blackwell架構下的一些嘗試

Reply to 論迷你電腦配合 RTX Pro 4500 的簡單測試, 以及Blackwell架構下的一些嘗試 on Fri, 05 Jun 2026 23:16:14 GMT

Reply to 論迷你電腦配合 RTX Pro 4500 的簡單測試, 以及Blackwell架構下的一些嘗試 on Fri, 05 Jun 2026 19:09:28 GMT

Reply to 論迷你電腦配合 RTX Pro 4500 的簡單測試, 以及Blackwell架構下的一些嘗試 on Fri, 05 Jun 2026 18:32:00 GMT

Reply to 論迷你電腦配合 RTX Pro 4500 的簡單測試, 以及Blackwell架構下的一些嘗試 on Fri, 05 Jun 2026 18:27:02 GMT

Reply to 論迷你電腦配合 RTX Pro 4500 的簡單測試, 以及Blackwell架構下的一些嘗試 on Fri, 05 Jun 2026 18:26:30 GMT

Reply to 論迷你電腦配合 RTX Pro 4500 的簡單測試, 以及Blackwell架構下的一些嘗試 on Fri, 05 Jun 2026 18:26:11 GMT

Reply to 論迷你電腦配合 RTX Pro 4500 的簡單測試, 以及Blackwell架構下的一些嘗試 on Fri, 05 Jun 2026 18:21:23 GMT

Reply to 論迷你電腦配合 RTX Pro 4500 的簡單測試, 以及Blackwell架構下的一些嘗試 on Fri, 05 Jun 2026 18:19:11 GMT

Reply to 論迷你電腦配合 RTX Pro 4500 的簡單測試, 以及Blackwell架構下的一些嘗試 on Fri, 05 Jun 2026 18:17:17 GMT

Reply to 論迷你電腦配合 RTX Pro 4500 的簡單測試, 以及Blackwell架構下的一些嘗試 on Fri, 05 Jun 2026 18:09:10 GMT

Reply to 論迷你電腦配合 RTX Pro 4500 的簡單測試, 以及Blackwell架構下的一些嘗試 on Fri, 05 Jun 2026 18:03:33 GMT

Reply to 論迷你電腦配合 RTX Pro 4500 的簡單測試, 以及Blackwell架構下的一些嘗試 on Fri, 05 Jun 2026 18:02:20 GMT

Reply to 論迷你電腦配合 RTX Pro 4500 的簡單測試, 以及Blackwell架構下的一些嘗試 on Fri, 05 Jun 2026 19:29:03 GMT

Reply to 論迷你電腦配合 RTX Pro 4500 的簡單測試, 以及Blackwell架構下的一些嘗試 on Fri, 05 Jun 2026 17:23:31 GMT

Reply to 論迷你電腦配合 RTX Pro 4500 的簡單測試, 以及Blackwell架構下的一些嘗試 on Fri, 05 Jun 2026 17:13:34 GMT

Reply to 論迷你電腦配合 RTX Pro 4500 的簡單測試, 以及Blackwell架構下的一些嘗試 on Fri, 05 Jun 2026 17:02:31 GMT

Reply to 論迷你電腦配合 RTX Pro 4500 的簡單測試, 以及Blackwell架構下的一些嘗試 on Fri, 05 Jun 2026 17:01:02 GMT