对 M5 MAX 跑本地大模型有点失望
-
M5 Max 跑 Qwen 122b a10b Q4 的话, 如果内存够, 不大可能只有 20-25t/s.
我的M5 pro 跑 Qwen 27b 稠密加上MTP之后, 还能跑到20以上, 64k上下文时候掉到 17多.
按这个速度推理, M5 max 是我显存带宽的两倍, 它能到 40t/s 以上.
122b A10b 肯定比27b 稠密要快, 应该能跑到 60t/s以上, 我估计.
另外, 122A10 的智力应该不如 27b 稠密, 只是知识面更宽.
@Tony-Wang 对的, 我的实际工作场景主要需要知识面, 智力其次。 所以27b对我反而没那么好用。 另外我看了很多M4 M5 跑大模型的评测, 我觉得不是单纯靠 x2 这样去算的, 当模型规模大, 上下文变长后, 速度增长不是线性的。我可以非常确定(因为昨天刚看一个, 当M5 pro能跑 17t/s 的时候, M5 MAX只有 25t/s), 另外, 122B 现在好像没有MTP,这也是区别之一吧。
我的 3090 24G 跑 27b 稠密加上 MTP都可以到 60t/s (在 ubuntu下 llama.cpp) , 那就是 M5 pro跟 3090 差了两倍多, 这个也是让我觉得苹果不太行。
-
@Tony-Wang 对的, 我的实际工作场景主要需要知识面, 智力其次。 所以27b对我反而没那么好用。 另外我看了很多M4 M5 跑大模型的评测, 我觉得不是单纯靠 x2 这样去算的, 当模型规模大, 上下文变长后, 速度增长不是线性的。我可以非常确定(因为昨天刚看一个, 当M5 pro能跑 17t/s 的时候, M5 MAX只有 25t/s), 另外, 122B 现在好像没有MTP,这也是区别之一吧。
我的 3090 24G 跑 27b 稠密加上 MTP都可以到 60t/s (在 ubuntu下 llama.cpp) , 那就是 M5 pro跟 3090 差了两倍多, 这个也是让我觉得苹果不太行。
要用支持MLX的框架, MOE 模型现在做MTP不成熟, 主要是 MTP 很难和 专家路由对齐. 命中率会很低, 这个可能将来会有改善.
上下文确实会严重拖慢速度. 不过也不应该拖慢那么多.
我 35A3, 短上下文能到 接近 90, 64k之后, 大概稳定在 50以上.
-
要用支持MLX的框架, MOE 模型现在做MTP不成熟, 主要是 MTP 很难和 专家路由对齐. 命中率会很低, 这个可能将来会有改善.
上下文确实会严重拖慢速度. 不过也不应该拖慢那么多.
我 35A3, 短上下文能到 接近 90, 64k之后, 大概稳定在 50以上.
@Tony-Wang 了解了, 谢谢, 3090 35a3b 可以到 135t/s , 128k上下文跑起来后 90-100
-
我工作上是 Pro6000 *8 的方案,只能說如果公司有錢就買一櫃沒啥煩惱,GPT-OSS-120B 沒壓力,但訓練上大家還是覺得不夠用,這本來就不是給我們這些窮人單卡作業的需求... ,8 張能落地跑很多情境,但絕大多數同事還是用 chatGPT 比較快,mac跑LLM,只是幫你搞定重複性高又不好寫程式自動化的小流程
(只是分享 不建議購入,光是配套設施就很貴,沒事別玩機架式@CS6 首先你家得有一套带地下室的别墅

-
@tony-wang N卡除了 5090 / pro 6000 外還有窮人選擇嗎?
-
我刚刚定了一块 pro 5000 48G, 主要用来跑 27b, 价格不到4万, 还有保修.
对比pro 6000 96G, 现在京东上都 12万, 15万, 甚至18万一张了.
@Tony-Wang 台幣 $245,000 這價格也是很難回本

要捏一下薪水 -
我刚刚定了一块 pro 5000 48G, 主要用来跑 27b, 价格不到4万, 还有保修.
对比pro 6000 96G, 现在京东上都 12万, 15万, 甚至18万一张了.
@Tony-Wang 巧了,今天京东自营刚刚到货,准备过两天发帖
-
@Tony-Wang 巧了,今天京东自营刚刚到货,准备过两天发帖
-
@Tony-Wang nv工包的,京东有两款,差价10元,买的38804的那款。
-
@Tony-Wang nv工包的,京东有两款,差价10元,买的38804的那款。
-
@Tony-Wang 京东plus会员优惠接近200,如果不急退了冲个会员再买。
-
@566656661 噪音如何?
-
@566656661 噪音如何?
十分安靜, 本來就是200W的卡, 有load的時候也被桌機的電腦風扇蓋過了
RTX Pro系列很適合注重噪音跟功耗的人 (600W的RTX Pro 6000例外, 在說Max Q版本)
論Token能耗比會好過普通Geforce,
性價比就不要談了
, 你们台湾还能有满血保修, 我们这边啥都没有.