論 迷你電腦 配合 RTX Pro 4500 的簡單測試, 以及Blackwell架構下的一些嘗試 (僅限Dense模型)
-
以下是研究途中的碎碎唸, 不感興趣的可以不看
碎碎唸1
看了蠻多文件跟大神文章, 有幾個值得留意的地方
Blackwell架構分成了Consumer Blackwell (sm 12x) 跟 Data Center Blackwell (sm 10x) 所有Geforce, RTX Pro, DGX Spark, RTX Spark都歸屬在Consumer Blackwell 其中最大的分別就是在於sm 12x缺少了tcgen05, 這也是Flash Attention 4裏面的核心技術 底層MMA邏輯裏用的還是SM8X, 也就是目前的Flash Attention 2 好家夥, 老黃這算不算是在欺詐啊...https://docs.vllm.ai/en/stable/configuration/env_vars/ v0.22 cu129可以在--linear-backend (前身VLLM_NVFP4_GEMM_BACKEND)使用flashinfer-b12x而不是flashinfer-cutlass MoE模型 (Qwen 3.6 35BA3B 跟 Gemma 4 26BA4B) 可以通過在--moe-backend 設置flashinfer_b12x 這個是特意為sm 12x架構優化的GEMM内核 約有30%throughput增長, https://github.com/vllm-project/vllm/pull/39634 這個我有點興趣先再試試看
碎碎唸2 (
吐槽)在一邊看vLLM文件一邊跑去問了Gemini, 講明了是Blackwell架構,居然還給了個
VLLM_MXFP4_BACKEND=marlin, 先不説直接無視掉NVFP4, marlin是給沒有FP4硬件加速的啊... (NVFP4或者MXFP4都可用)VLLM_FLASHINFER_MOE_BACKEND還給了throughput這個預設參數, 也沒改成--moe-backend flashinfer_cutlass(雖然這個在27b 模型沒用到)錯誤示範, 不要學
docker run -d \ --name vllm-Huihui-Qwen3.6-27B-abliterated-NVFP4-MTP \ (中間省略) -e SERVED_MODEL_NAME="Huihui-Qwen3.6-27B-abliterated-NVFP4-MTP" \ -e VLLM_ATTENTION_BACKEND="FLASHINFER" \ -e VLLM_MXFP4_BACKEND="marlin" \ -e VLLM_FLASHINFER_MOE_BACKEND="throughput" \ -e VLLM_USE_FLASHINFER_SAMPLER="1" \ -e VLLM_EXTRA_ARGS= (以下省略)
碎碎唸3
--linear-backend估計因爲太新
用cu130 nightly跑會吵沒有這個選項
用cu129 v0.22.1跑會說cu129 不支持cu130的b12x
這個可能要等cu130出v0.22了

-
@566656661 噪音怎么样?外置的是不是更明显?能用llama.cpp 测试一下吗?4500 比 9700 贵 1.2万,当时也看了很久,超预算了,一咬牙——没买。

-
@566656661 噪音怎么样?外置的是不是更明显?能用llama.cpp 测试一下吗?4500 比 9700 贵 1.2万,当时也看了很久,超预算了,一咬牙——没买。

-
@566656661 噪音怎么样?外置的是不是更明显?能用llama.cpp 测试一下吗?4500 比 9700 贵 1.2万,当时也看了很久,超预算了,一咬牙——没买。

-
小疑問 , 買RTX Pro 4500 為何不買 5090 ?
-
小疑問 , 買RTX Pro 4500 為何不買 5090 ?
@fanwen1974 性價比問題。兩張卡價錢完全不同。
本身起始點是R9700, 小弟比較清窮,沒法子拿出個3,5,7萬出來爽爽
有能力的5090只是甜點,更應買更多VRAM
就小弟能力所限只可以買4500
功率低,比R9700好
最重要價錢相宜,能負擔(剛剛再問代理又漲價3000
)
沒有最好,只有合適 -
小疑問 , 買RTX Pro 4500 為何不買 5090 ?
以混合用途LLM + 遊戲的話當然是5090 / 5090D比較好
但是整組組合一來只會作為伺服器使用, 不負責拿來玩ComfyUI, 核心再多性能也沒用, 最主要的瓶頸位在VRAM上面
二來5090燒接頭的問題讓我不太放心在沒人看著的時候用, 5090最低也有400w, 這張卡只有200w
三來香港的5090D跟5090其實比RTX Pro 4500還要更貴, 5090D現在已經沒有全新只有二手了, 最便宜2萬3, 正常2萬5以上, 還只剩最多2年的保養, 因大多數5090D卡都2025年年頭買, 保養到28年年頭, 正常5090已經是2萬8到3萬2了, 然後我這張卡2萬2, 全新3年保修
-
以混合用途LLM + 遊戲的話當然是5090 / 5090D比較好
但是整組組合一來只會作為伺服器使用, 不負責拿來玩ComfyUI, 核心再多性能也沒用, 最主要的瓶頸位在VRAM上面
二來5090燒接頭的問題讓我不太放心在沒人看著的時候用, 5090最低也有400w, 這張卡只有200w
三來香港的5090D跟5090其實比RTX Pro 4500還要更貴, 5090D現在已經沒有全新只有二手了, 最便宜2萬3, 正常2萬5以上, 還只剩最多2年的保養, 因大多數5090D卡都2025年年頭買, 保養到28年年頭, 正常5090已經是2萬8到3萬2了, 然後我這張卡2萬2, 全新3年保修
@566656661 現在還買得到這個價位的嗎?
有的話我可以飛一趟香港。 -
以混合用途LLM + 遊戲的話當然是5090 / 5090D比較好
但是整組組合一來只會作為伺服器使用, 不負責拿來玩ComfyUI, 核心再多性能也沒用, 最主要的瓶頸位在VRAM上面
二來5090燒接頭的問題讓我不太放心在沒人看著的時候用, 5090最低也有400w, 這張卡只有200w
三來香港的5090D跟5090其實比RTX Pro 4500還要更貴, 5090D現在已經沒有全新只有二手了, 最便宜2萬3, 正常2萬5以上, 還只剩最多2年的保養, 因大多數5090D卡都2025年年頭買, 保養到28年年頭, 正常5090已經是2萬8到3萬2了, 然後我這張卡2萬2, 全新3年保修
@566656661 了解,可能我在臺灣,5900 跟 RTX 4500 差不多價錢,才有這個疑問。臺灣的 RTX Pro 都太貴。開個COMPUTEX , RTX Pro 6000 本來 38 萬 變 48 萬,神經病~
-
@566656661 現在還買得到這個價位的嗎?
有的話我可以飛一趟香港。 -
@566656661 了解,可能我在臺灣,5900 跟 RTX 4500 差不多價錢,才有這個疑問。臺灣的 RTX Pro 都太貴。開個COMPUTEX , RTX Pro 6000 本來 38 萬 變 48 萬,神經病~
@fanwen1974 現金價的話,5090可能會比較便宜一點,但如果像我想要刷卡12到24 期基本上就只有 Pro 4500 ....,5090 都要配套裝,如果按每個月 1萬來說的話,其實就可以直接往上看到Pro 5000 (24期)
-
2萬5
還是比13萬台幣便宜很多....蠻心動的,缺點應該是保固要送回香港
-
@566656661 4080s 32g 魔改卡呢? 只要一半價格
-
@566656661 4080s 32g 魔改卡呢? 只要一半價格
-
5 566656661 被引用 于这个主题
-
系统 取消固定了该主题
-
還沒調整好, INT 4估計還能更快INT4不會更快, 但是可以運用Autoround配合turboquant 4bit nc 壓榨更多KV Cache 空間 (詳情看22樓)
2張R9700走TP 2用Oculink跟 PCIe 5.0 x8 混合使用估計會出事誒, Oculink只有PCIe 4.0 x4, PCIe 5.0 x8, 結果就是只能走PCIe 4.0 x4
-
還沒調整好, INT 4估計還能更快INT4不會更快, 但是可以運用Autoround配合turboquant 4bit nc 壓榨更多KV Cache 空間 (詳情看22樓)
2張R9700走TP 2用Oculink跟 PCIe 5.0 x8 混合使用估計會出事誒, Oculink只有PCIe 4.0 x4, PCIe 5.0 x8, 結果就是只能走PCIe 4.0 x4
这种情况是推测,还是肯定会发生?
)