論迷你電腦配合 RTX Pro 4500 的簡單測試, 以及Blackwell架構下的一些嘗試 (僅限Dense模型)

566656661

基於這個文章我也特意跑去試試INT4, 只能說老黃沒有把最後的良心都扔掉, 如果NVFP4比INT4沒有更多優勢的話, 真的要駡街了

vLLM cu130 nightly (0.20)

啓動跟測試參數跟1樓一樣, 單純換了個模型

| model                                     |             test |              t/s |     peak t/s |          ttfr (ms) |       est_ppt (ms) |      e2e_ttft (ms) |
| :---------------------------------------- | ---------------: | ---------------: | -----------: | -----------------: | -----------------: | -----------------: |
| Qwen3.6-27B-heretic-v2-mtp-int4-AutoRound |           pp2048 | 1982.15 ± 894.28 |              |   1551.80 ± 975.03 |   1473.35 ± 975.03 |   1551.80 ± 975.03 |
| Qwen3.6-27B-heretic-v2-mtp-int4-AutoRound |            tg480 |     70.03 ± 2.28 | 87.67 ± 1.25 |                    |                    |                    |
| Qwen3.6-27B-heretic-v2-mtp-int4-AutoRound |   pp2048 @ d1000 |  2639.16 ± 40.73 |              |    1233.51 ± 17.91 |    1155.06 ± 17.91 |    1233.51 ± 17.91 |
| Qwen3.6-27B-heretic-v2-mtp-int4-AutoRound |    tg480 @ d1000 |     71.09 ± 5.72 | 91.00 ± 5.89 |                    |                    |                    |
| Qwen3.6-27B-heretic-v2-mtp-int4-AutoRound |   pp2048 @ d5000 |  2529.19 ± 13.93 |              |    2865.45 ± 15.52 |    2787.01 ± 15.52 |    2865.45 ± 15.52 |
| Qwen3.6-27B-heretic-v2-mtp-int4-AutoRound |    tg480 @ d5000 |     71.72 ± 1.86 | 91.33 ± 7.85 |                    |                    |                    |
| Qwen3.6-27B-heretic-v2-mtp-int4-AutoRound |  pp2048 @ d10000 |   2433.99 ± 3.22 |              |     5028.07 ± 6.36 |     4949.63 ± 6.36 |     5028.07 ± 6.36 |
| Qwen3.6-27B-heretic-v2-mtp-int4-AutoRound |   tg480 @ d10000 |     71.66 ± 3.22 | 90.67 ± 1.70 |                    |                    |                    |
| Qwen3.6-27B-heretic-v2-mtp-int4-AutoRound |  pp2048 @ d20000 |   2293.80 ± 0.84 |              |     9690.43 ± 3.52 |     9611.99 ± 3.52 |     9691.58 ± 3.56 |
| Qwen3.6-27B-heretic-v2-mtp-int4-AutoRound |   tg480 @ d20000 |     72.64 ± 2.80 | 88.67 ± 8.22 |                    |                    |                    |
| Qwen3.6-27B-heretic-v2-mtp-int4-AutoRound |  pp2048 @ d50000 |   1948.24 ± 1.20 |              |   26793.70 ± 16.21 |   26715.25 ± 16.21 |   26796.17 ± 16.70 |
| Qwen3.6-27B-heretic-v2-mtp-int4-AutoRound |   tg480 @ d50000 |     70.21 ± 5.02 | 85.67 ± 6.80 |                    |                    |                    |
| Qwen3.6-27B-heretic-v2-mtp-int4-AutoRound | pp2048 @ d100000 |   1567.89 ± 0.72 |              |   65164.49 ± 30.24 |   65086.05 ± 30.24 |   65168.84 ± 29.64 |
| Qwen3.6-27B-heretic-v2-mtp-int4-AutoRound |  tg480 @ d100000 |     62.20 ± 1.73 | 84.67 ± 2.62 |                    |                    |                    |
| Qwen3.6-27B-heretic-v2-mtp-int4-AutoRound | pp2048 @ d150000 |   1313.09 ± 0.56 |              |  115872.26 ± 49.39 |  115793.81 ± 49.39 |  115879.31 ± 48.59 |
| Qwen3.6-27B-heretic-v2-mtp-int4-AutoRound |  tg480 @ d150000 |     59.53 ± 3.51 | 80.33 ± 2.05 |                    |                    |                    |
| Qwen3.6-27B-heretic-v2-mtp-int4-AutoRound | pp2048 @ d200000 |   1128.87 ± 0.81 |              | 179060.75 ± 127.67 | 178982.30 ± 127.67 | 179069.38 ± 127.94 |
| Qwen3.6-27B-heretic-v2-mtp-int4-AutoRound |  tg480 @ d200000 |     54.24 ± 1.72 | 74.33 ± 2.62 |                    |                    |                    |

GPT分析

指標	結論
測試組合	`cu130-0.20-int-4-autoround-mtp` 對比 `cu130-0.20-nvfp4-mtp`
`pp2048` / prefill t/s	NVFP4 明顯較快；INT4 AutoRound 平均 prefill 約慢 `51.5%`
短 context	INT4 AutoRound 在純 `pp2048` 約慢 `74.4%`，`d1000` 約慢 `67.6%`
中等 context	`d5000` 至 `d20000`，INT4 AutoRound prefill 約慢 `55% - 62%`
長 context	`d50000` 以上 INT4 AutoRound 仍較慢，但差距縮小到約 `27% - 47%`
`ttfr` / `e2e_ttft`	NVFP4 明顯較低；INT4 AutoRound 平均 TTFT 約高 `124%`
`tg480` generation t/s	INT4 AutoRound 平均約快 `1.2%`，但不是全面勝出
peak generation t/s	INT4 AutoRound 平均約快 `4.9%`，多數 context 的 peak 較高
長 context generation	在 `d150000` 和 `d200000`，INT4 AutoRound 的平均 generation t/s 反而低於 NVFP4

結論

在 cu130-0.20 nightly 下，NVFP4 MTP 的主要優勢非常清楚：prefill throughput 和 TTFT 明顯好過 INT4 AutoRound MTP，尤其短到中等 context 差距很大。

INT4 AutoRound MTP 的優勢主要在 decode / generation，平均 tg480 稍快約 1.2%，peak generation 約快 4.9%，但長 context 下這個優勢不穩定，d150000 和 d200000 反而較慢。

整體而言，如果 workload 是 prompt-heavy、RAG、長 prompt prefill 或重視首 token 延遲，NVFP4 MTP 明顯較合適。若 workload 幾乎完全是 decode-heavy，而且可以接受較慢 TTFT，INT4 AutoRound MTP 才有比較價值。

理論上KV Cache可以透過使用eugr/spark-vllm-docker的docker image用tq-t4nc來進一步降低 (FP8的一半), 引用vLLm自己的文章

Pareto frontier for Qwen3-30B-A3B-Instruct-2507 on 2xH100. FP8 matches BF16 throughput at 2x capacity. TurboQuant variants extend capacity to 2.3-3.7x but at 40-52% throughput reduction.

精度上也算可以接受吧

566656661

@terry

當然沒有這麽暴利的事情啊XD

香港便宜是因爲不用交電子稅, 我有個群友之前想繞過代理, 把自己的4090帶去華强北修結果那張卡被扣押, 不給稅不能過, 儘管什麽包裝都沒有并且也說是自己用, 最後還是走代理送修了

便宜的卡估計會一隻眼開一隻眼閉, 但是這些貴價卡估計沒戲了

566656661

碎碎唸3

--linear-backend估計因爲太新

用cu130 nightly跑會吵沒有這個選項

用cu129 v0.22.1跑會說cu129 不支持cu130的b12x

這個可能要等cu130出v0.22了

~~可是moe在v0.22又支持是什麽鬼~~

wml-ai

@566656661 噪音怎么样？外置的是不是更明显？能用llama.cpp 测试一下吗？4500 比 9700 贵 1.2万，当时也看了很久，超预算了，一咬牙——没买。

566656661

@wml-ai

噪音的話很安靜, 畢竟只有200w, 有load的時候風扇只有70%轉速

llama.cpp的話還沒太認真玩過, 我找個時間試試看

rolex lo

@wml-ai 一樣想法, 半年前想想, 應該不會入AI 坑吧
最後, 乖乖上會. 半年前應該不會是1.2萬?

現在已經1.4萬...

我再想想的話, 應該要進老人院了...(被淘汰... )

fanwen1974

小疑問 , 買RTX Pro 4500 為何不買 5090 ?

rolex lo

@fanwen1974 性價比問題。兩張卡價錢完全不同。
本身起始點是R9700, 小弟比較清窮，沒法子拿出個3,5,7萬出來爽爽
有能力的5090只是甜點，更應買更多VRAM

就小弟能力所限只可以買4500

功率低，比R9700好
最重要價錢相宜，能負擔(剛剛再問代理又漲價3000)
沒有最好，只有合適

566656661

@fanwen1974

以混合用途LLM + 遊戲的話當然是5090 / 5090D比較好

但是整組組合一來只會作為伺服器使用, 不負責拿來玩ComfyUI, 核心再多性能也沒用, 最主要的瓶頸位在VRAM上面

二來5090燒接頭的問題讓我不太放心在沒人看著的時候用, 5090最低也有400w, 這張卡只有200w

三來香港的5090D跟5090其實比RTX Pro 4500還要更貴, 5090D現在已經沒有全新只有二手了, 最便宜2萬3, 正常2萬5以上, 還只剩最多2年的保養, 因大多數5090D卡都2025年年頭買, 保養到28年年頭, 正常5090已經是2萬8到3萬2了, 然後我這張卡2萬2, 全新3年保修

CS6

@566656661 現在還買得到這個價位的嗎？ ~~有的話我可以飛一趟香港。~~

fanwen1974

@566656661 了解，可能我在臺灣，5900 跟 RTX 4500 差不多價錢，才有這個疑問。臺灣的 RTX Pro 都太貴。開個COMPUTEX ， RTX Pro 6000 本來 38 萬變 48 萬，神經病~

566656661

@CS6

現在當然沒有啦, 都升到2萬5了, 剛好卡在二手5090D低一點的位置

CS6

@fanwen1974 現金價的話，5090可能會比較便宜一點，但如果像我想要刷卡12到24 期基本上就只有 Pro 4500 ....，5090 都要配套裝，如果按每個月 1萬來說的話，其實就可以直接往上看到Pro 5000 (24期)

CS6

@566656661 说:

2萬5

還是比13萬台幣便宜很多....蠻心動的，缺點應該是保固要送回香港

566656661

@CS6

這個2萬5還是商家3月頭4月標定的, 很有可能下單又變了

CS6

@566656661 4080s 32g 魔改卡呢？只要一半價格

566656661

@CS6

魔改卡那就當然風險自負啊, 錘大不就吃虧了嘛

魔改卡因為vbios無法調教, 噪音跟token能耗比會差過專業卡, 現在4080 32 gb都要1萬3到1萬4人民幣, 港幣1萬6到1萬7左右了, 相對起R9700的1萬多一點瞬間就沒什麼吸引力

我之前也有一張4090D 48GB, 就算限制功耗到300w用來半年就頂不住就賣了出去, 虧了大約1千5左右, 算是使用成本吧

rolex lo

更新一下香港 pro 4500已經要價27000 ~ 28000 了 5090 大概40000
pro 4500 比之前漲了 2~4000

wml-ai

@566656661 说:

@rolex-lo

~~還沒調整好, INT 4估計還能更快~~

INT4不會更快, 但是可以運用Autoround配合turboquant 4bit nc 壓榨更多KV Cache 空間 (詳情看22樓)

2張R9700走TP 2用Oculink跟 PCIe 5.0 x8 混合使用估計會出事誒, Oculink只有PCIe 4.0 x4, PCIe 5.0 x8, 結果就是只能走PCIe 4.0 x4

这种情况是推测，还是肯定会发生？

566656661

@wml-ai

推測, 但是基於TP自己需要多卡大量交換數據跟處理結果, PCIe的速度成了關鍵

VLLM的文件推薦使用TP的時候最好有類似NVLINK這樣的跨卡高速通道

抡锤者

論迷你電腦配合 RTX Pro 4500 的簡單測試, 以及Blackwell架構下的一些嘗試 (僅限Dense模型)

碎碎唸1

碎碎唸2 (吐槽)

碎碎唸3

抡锤者

論 迷你電腦 配合 RTX Pro 4500 的簡單測試, 以及Blackwell架構下的一些嘗試 (僅限Dense模型)

碎碎唸1

碎碎唸2 (吐槽)

碎碎唸3

論迷你電腦配合 RTX Pro 4500 的簡單測試, 以及Blackwell架構下的一些嘗試 (僅限Dense模型)