对 M5 MAX 跑本地大模型有点失望
-
我工作上是 Pro6000 *8 的方案,只能說如果公司有錢就買一櫃沒啥煩惱,GPT-OSS-120B 沒壓力,但訓練上大家還是覺得不夠用,這本來就不是給我們這些窮人單卡作業的需求... ,8 張能落地跑很多情境,但絕大多數同事還是用 chatGPT 比較快,mac跑LLM,只是幫你搞定重複性高又不好寫程式自動化的小流程
(只是分享 不建議購入,光是配套設施就很貴,沒事別玩機架式@CS6 首先你家得有一套带地下室的别墅

-
@tony-wang N卡除了 5090 / pro 6000 外還有窮人選擇嗎?
-
我刚刚定了一块 pro 5000 48G, 主要用来跑 27b, 价格不到4万, 还有保修.
对比pro 6000 96G, 现在京东上都 12万, 15万, 甚至18万一张了.
@Tony-Wang 台幣 $245,000 這價格也是很難回本

要捏一下薪水 -
我刚刚定了一块 pro 5000 48G, 主要用来跑 27b, 价格不到4万, 还有保修.
对比pro 6000 96G, 现在京东上都 12万, 15万, 甚至18万一张了.
@Tony-Wang 巧了,今天京东自营刚刚到货,准备过两天发帖
-
@Tony-Wang 巧了,今天京东自营刚刚到货,准备过两天发帖
-
@Tony-Wang nv工包的,京东有两款,差价10元,买的38804的那款。
-
@Tony-Wang nv工包的,京东有两款,差价10元,买的38804的那款。
-
@Tony-Wang 京东plus会员优惠接近200,如果不急退了冲个会员再买。
-
@566656661 噪音如何?
-
@566656661 噪音如何?
十分安靜, 本來就是200W的卡, 有load的時候也被桌機的電腦風扇蓋過了
RTX Pro系列很適合注重噪音跟功耗的人 (600W的RTX Pro 6000例外, 在說Max Q版本)
論Token能耗比會好過普通Geforce,
性價比就不要談了 -
好的, 期待.
-
嗯, Mac 肯定是不能打, M5 Max 以上, 我估计L
@566656661 剛看到,期待,
我也是用mini pc, 就是性價比的問題.

@tony-wang 說的48GB 都很吸引, 但真的沒錢 -
基本上我是把上下文拉爆(日間Coding需要), 然後concurrency單純調1, 並沒有特別針對hermes做什麼特別優化 (也許研究一下會更好, 不過得要有空)
趁現在午休的時候跑了一下llama benchy
llama-benchy \ --base-url "http://localhost:7380/v1" \ --model "Huihui-Qwen3.6-27B-abliterated-NVFP4-MTP" \ --tokenizer "$HOME/vllm/models/sakamakismile/Huihui-Qwen3.6-27B-abliterated-NVFP4-MTP" \ --pp 2048 \ --tg 480 \ --depth 0 1000 5000 10000 20000 50000 100000 150000 200000 \ #(不同上下文長度) --latency-mode generation \ --skip-coherence \ --concurrency 1 \Context Ladder
| model | test | t/s | peak t/s | ttfr (ms) | est_ppt (ms) | e2e_ttft (ms) | |:-----------------------------------------|-----------------:|------------------:|-------------:|------------------:|------------------:|------------------:| | Huihui-Qwen3.6-27B-abliterated-NVFP4-MTP | pp2048 | 7741.01 ± 1375.30 | | 373.94 ± 54.49 | 274.26 ± 54.49 | 373.94 ± 54.49 | | Huihui-Qwen3.6-27B-abliterated-NVFP4-MTP | tg480 | 68.87 ± 6.65 | 81.33 ± 3.68 | | | | | Huihui-Qwen3.6-27B-abliterated-NVFP4-MTP | pp2048 @ d1000 | 8136.73 ± 32.84 | | 474.32 ± 1.44 | 374.64 ± 1.44 | 474.32 ± 1.44 | | Huihui-Qwen3.6-27B-abliterated-NVFP4-MTP | tg480 @ d1000 | 67.73 ± 5.06 | 88.00 ± 5.72 | | | | | Huihui-Qwen3.6-27B-abliterated-NVFP4-MTP | pp2048 @ d5000 | 6615.23 ± 22.79 | | 1165.21 ± 3.86 | 1065.53 ± 3.86 | 1165.21 ± 3.86 | | Huihui-Qwen3.6-27B-abliterated-NVFP4-MTP | tg480 @ d5000 | 72.92 ± 3.56 | 89.33 ± 3.77 | | | | | Huihui-Qwen3.6-27B-abliterated-NVFP4-MTP | pp2048 @ d10000 | 6008.73 ± 10.16 | | 2104.88 ± 3.47 | 2005.20 ± 3.47 | 2104.88 ± 3.47 | | Huihui-Qwen3.6-27B-abliterated-NVFP4-MTP | tg480 @ d10000 | 65.25 ± 2.21 | 82.00 ± 4.32 | | | | | Huihui-Qwen3.6-27B-abliterated-NVFP4-MTP | pp2048 @ d20000 | 5152.21 ± 0.52 | | 4379.13 ± 0.52 | 4279.45 ± 0.52 | 4380.19 ± 0.46 | | Huihui-Qwen3.6-27B-abliterated-NVFP4-MTP | tg480 @ d20000 | 70.45 ± 1.27 | 89.67 ± 0.47 | | | | | Huihui-Qwen3.6-27B-abliterated-NVFP4-MTP | pp2048 @ d50000 | 3690.36 ± 5.88 | | 14203.66 ± 22.59 | 14103.98 ± 22.59 | 14205.86 ± 22.80 | | Huihui-Qwen3.6-27B-abliterated-NVFP4-MTP | tg480 @ d50000 | 67.03 ± 1.67 | 84.67 ± 0.47 | | | | | Huihui-Qwen3.6-27B-abliterated-NVFP4-MTP | pp2048 @ d100000 | 2528.58 ± 0.55 | | 40457.51 ± 8.72 | 40357.83 ± 8.72 | 40461.50 ± 8.69 | | Huihui-Qwen3.6-27B-abliterated-NVFP4-MTP | tg480 @ d100000 | 60.96 ± 0.75 | 78.33 ± 3.68 | | | | | Huihui-Qwen3.6-27B-abliterated-NVFP4-MTP | pp2048 @ d150000 | 1922.36 ± 0.98 | | 79194.84 ± 39.68 | 79095.17 ± 39.68 | 79201.49 ± 39.50 | | Huihui-Qwen3.6-27B-abliterated-NVFP4-MTP | tg480 @ d150000 | 62.53 ± 3.29 | 76.33 ± 1.89 | | | | | Huihui-Qwen3.6-27B-abliterated-NVFP4-MTP | pp2048 @ d200000 | 1556.00 ± 0.99 | | 129951.65 ± 82.49 | 129851.97 ± 82.49 | 129959.72 ± 82.53 | | Huihui-Qwen3.6-27B-abliterated-NVFP4-MTP | tg480 @ d200000 | 59.58 ± 1.31 | 69.67 ± 1.70 | | | |Token速度相當可用, 200K上下都能大約有60 tks

, 你们台湾还能有满血保修, 我们这边啥都没有.