Mac M3 Utral 512G 跑AI

Reply to Mac M3 Utral 512G 跑AI on Mon, 18 May 2026 13:29:09 GMT

Pascal — Mon, 18 May 2026 13:29:09 GMT

oMLX 默认就能用ssd做kv cache

Reply to Mac M3 Utral 512G 跑AI on Sun, 17 May 2026 23:35:45 GMT

Grayson Ren — Sun, 17 May 2026 23:35:45 GMT

ds4引擎已经用ssd做kv cache 最近有更新不重复prefill 等下我测试下更新后的效果

Reply to Mac M3 Utral 512G 跑AI on Sun, 17 May 2026 22:34:56 GMT

Pascal — Sun, 17 May 2026 22:34:56 GMT

token速度还是限于内存带宽啊。这么大内存也没有提高太多速度。这个是用oMLX，还是LM studio跑出来的？ oMLX应该有点优势吧，特别是prefill这块，可以用大内存做缓冲，提高命中率。

Reply to Mac M3 Utral 512G 跑AI on Fri, 15 May 2026 02:35:45 GMT

terry — Fri, 15 May 2026 02:35:45 GMT

@Grayson-Ren 很好的参考数据。

Reply to Mac M3 Utral 512G 跑AI on Fri, 15 May 2026 01:05:49 GMT

Grayson Ren — Fri, 15 May 2026 01:05:49 GMT

Reply to Mac M3 Utral 512G 跑AI on Thu, 14 May 2026 19:05:03 GMT

Xiaote — Thu, 14 May 2026 19:05:03 GMT

Fred大佬提到的ds4c框架确实是亮点。这里补充几句：ds4c全称是「DeepSeek4Coder」，它的核心优化是在内存带宽利用率上做了大量工作，对于M3 Ultra这种统一内存架构（512GB带宽）来说特别适配。M3 Ultra的带宽虽然比不上H100那些专用卡，但胜在显存超大且CPU/GPU共享内存——跑ds4c这种对内存带宽敏感的框架，效果会比其他框架好不少。

另外，Devin Hi可以试一下ds4c跑DeepSeek V4 Flash，因为ds4c本身就是针对DeepSeek系列模型做优化的，应该能发挥出M3 Ultra的最大潜力。等你的测试结果！

Reply to Mac M3 Utral 512G 跑AI on Thu, 14 May 2026 16:52:45 GMT

Grayson Ren — Thu, 14 May 2026 16:52:45 GMT

Reply to Mac M3 Utral 512G 跑AI on Thu, 14 May 2026 16:39:35 GMT

terry — Thu, 14 May 2026 16:39:35 GMT

@Fred 这是个因素，这个人是个大神，redis不用多说了。

Reply to Mac M3 Utral 512G 跑AI on Thu, 14 May 2026 16:38:44 GMT

Fred — Thu, 14 May 2026 16:38:44 GMT

deepseek v4 flash 的推理速度理论上确实应该比Qwen3.6 27B快的，因为它是个MoE模型，激活参数只有13B，比27B稠密模型确实是快一些。我估计27B稠密在这个机器上能跑到20t/s就挺不错了（如果不开MTP或者DFLASH这类）。
但是ds4.c这个框架确实值得关注，因为作者太牛逼，如果我没看错的话，他是Redis的作者，在码农眼里属于现象级的人物。他觉得能拿出手的东西，那就肯定是NB的。

Reply to Mac M3 Utral 512G 跑AI on Thu, 14 May 2026 16:33:41 GMT

terry — Thu, 14 May 2026 16:33:41 GMT

@Devin-Hi 非常好的帖子，我们再怎么云，没实际跑过就是不如有实际截图的人硬气。再多发点，最好把comfyUI也测试下，我好抄作业，做成视频。

Reply to Mac M3 Utral 512G 跑AI on Thu, 14 May 2026 16:32:44 GMT

terry — Thu, 14 May 2026 16:32:44 GMT

@王一民这是个大问题。

Reply to Mac M3 Utral 512G 跑AI on Thu, 14 May 2026 16:24:58 GMT

Grayson Ren — Thu, 14 May 2026 16:24:58 GMT

为啥我有bug 修了好久才好

Reply to Mac M3 Utral 512G 跑AI on Thu, 14 May 2026 16:19:52 GMT

王一民 — Thu, 14 May 2026 16:19:52 GMT

关键是prefill的速度比API慢太多了。chat场景不明显，Agent场景动不动冷启动就是10k的token输入。直接就罚站30秒。

Reply to Mac M3 Utral 512G 跑AI on Thu, 14 May 2026 15:12:01 GMT

johnnybegood — Thu, 14 May 2026 15:12:01 GMT

@Devin-Hi 看来还是等 m5 ultra吧