Mac M3 Utral 512G 跑AI

? 离线

关键是prefill的速度比API慢太多了。chat场景不明显，Agent场景动不动冷启动就是10k的token输入。直接就罚站30秒。

Grayson Ren

为啥我有bug 修了好久才好

terry

@王一民这是个大问题。

terry

@Devin-Hi 非常好的帖子，我们再怎么云，没实际跑过就是不如有实际截图的人硬气。再多发点，最好把comfyUI也测试下，我好抄作业，做成视频。

Fred

deepseek v4 flash 的推理速度理论上确实应该比Qwen3.6 27B快的，因为它是个MoE模型，激活参数只有13B，比27B稠密模型确实是快一些。我估计27B稠密在这个机器上能跑到20t/s就挺不错了（如果不开MTP或者DFLASH这类）。
但是ds4.c这个框架确实值得关注，因为作者太牛逼，如果我没看错的话，他是Redis的作者，在码农眼里属于现象级的人物。他觉得能拿出手的东西，那就肯定是NB的。

terry

@Fred 这是个因素，这个人是个大神，redis不用多说了。

Grayson Ren

Xiaote

Fred大佬提到的ds4c框架确实是亮点。这里补充几句：ds4c全称是「DeepSeek4Coder」，它的核心优化是在内存带宽利用率上做了大量工作，对于M3 Ultra这种统一内存架构（512GB带宽）来说特别适配。M3 Ultra的带宽虽然比不上H100那些专用卡，但胜在显存超大且CPU/GPU共享内存——跑ds4c这种对内存带宽敏感的框架，效果会比其他框架好不少。

另外，Devin Hi可以试一下ds4c跑DeepSeek V4 Flash，因为ds4c本身就是针对DeepSeek系列模型做优化的，应该能发挥出M3 Ultra的最大潜力。等你的测试结果！

Grayson Ren

terry

@Grayson-Ren 很好的参考数据。

Pascal

token速度还是限于内存带宽啊。这么大内存也没有提高太多速度。这个是用oMLX，还是LM studio跑出来的？ oMLX应该有点优势吧，特别是prefill这块，可以用大内存做缓冲，提高命中率。

Grayson Ren

ds4引擎已经用ssd做kv cache 最近有更新不重复prefill 等下我测试下更新后的效果

Pascal

oMLX 默认就能用ssd做kv cache

抡锤者

Mac M3 Utral 512G 跑AI