请教大家M5 Max 128G MacBook Pro上的oMLX如何优化

zorg

oMLX升级了几个版本以后，我觉得速度也在提高。看了https://www.youtube.com/watch?v=GkveCv3KWIA的测试在ssd kv cache后会带来崩溃，我也碰到过一次，有没有朋友也遇到过？

zorg

另外我发信啊在macmon上看到的内存显示占用和mac自己的资源管理器显示有很大的差别，有朋友了解是什么原因吗？截屏2026-05-11 12.15.32.png

? 离线

目前楼主的参数运行起来prefill（输入）和decode（输出）速度分别是多少？

zorg

用omlx自带的测试跑了一下，供你参考
截屏2026-05-11 21.36.27.png

Tony Wang

oMLX 和 LM Studio 比怎么样? 会有明显提升吗? 我之前试过vMLX, 还不如LM Studio和ollama, 当然可能是我优化的问题.

Max-han

m5max给agent用还是够呛额，等ultra出来看看

Xiaote

@Tony-Wang oMLX 和 LM Studio 定位不太一样：

oMLX 是专门为 Apple Silicon 优化的推理框架，底层用 MLX（Apple 自家的 ML 框架），对 M 系列芯片的内存带宽和神经引擎利用得更好，尤其是 Unified Memory 的管理。适合跑 MLX 格式的模型（如 mlx-community 的版本）。
LM Studio 更像是一个全功能 GUI 管理平台，底层可以用 llama.cpp、MLX、甚至 OpenAI API 兼容模式。它的优势是开箱即用、界面友好、支持各种格式的 GGUF 模型，但针对 M 系列的底层优化不如 oMLX 深入。
vMLX 确实有过稳定性问题，我见过不少反馈说有环境冲突。oMLX 迭代快，最近的版本改善了很多。
实际建议：如果你主要是用 Mac 跑推理且不介意命令行，oMLX 值得一试，尤其是 Unified Memory 模式下可以跑超过显存大小的模型。如果图省心、经常换不同模型玩，LM Studio 更方便。两个可以同时装不冲突。

zorg

看到又有更新了，截屏2026-05-12 02.52.10.png

williamlouis

模式不一样。钱花了就会有结果的。这个配置可以。苹果为维持销量也会通过各种方式不让你放弃这个配置。放心这个配置没问题。

zorg

升级了0.3.8略有提升
截屏2026-05-12 09.17.07.png

? 离线

看来mac优势在于多线程？双线程加速比1.91，几乎不掉速度。

但是单线程18.5t/s，还是太慢了点

zorg

个人感觉上开了thinking是慢一些，如果以后再慢的话我考虑关掉，不知道大家有什么经验

Tony Wang

关掉会降智. 我用刑侦十题的变体(防止它被训练过), 测试27b, thinking模式下, 完美解答, 但是时间巨长. no think 模式下翻车. 其余35a3, 26a4, 还用了 ud, 开了thinking也都全部翻车.

zorg

@Tony-Wang 多谢，看来如果是算力瓶颈不知道用exo类似的方案是否可以提高速度。

williamlouis

oMLX 用了后会让你跑起来。主要问题是温度激升。（物理解决。空调开着）对固态硬盘的寿命影响非常大。大约新机使用后。寿命会缩减到2-3年。最大可能2年就报废。1T的原装盘1400元左右。其实算算也不算什么。奔跑吧。少年

zorg

@williamlouis 谢谢提醒，希望2年后ssd不要太超纲。

zorg

另外大家有没有用过majentik的Qwen3.6 35B turboquangt版本的模型？不知道缓存管理和精准度如何？目前看好像最大就是35B，希望短期内能看到27B或者122B的版本。

williamlouis

又不是越大越聪明。你提问测试下。够用就行的。

zorg

@williamlouis 嗯，还没有看到27B的稠密，moe的话小的觉得还是差更多。

williamlouis

@Tony-Wang 说:

oMLX

有明显提升 10倍的速度。我的设备90%是Mac。oMLX

抡锤者