macbookpro M3max 128G 8T怎么折腾玩本地AI？

Phuong Ngo

【环境】

设备：MacBook Pro 16" M3 Max (14C CPU + 40C GPU)
内存：128GB 统一内存
存储：8TB SSD
系统：macOS 15.6

【目标】

想在本地搭建一套可长期运行的 AI 工作流，主要用途：

LLM 推理：跑 27B 级稠密模型（如 Qwen3.5-27B）作 Hermes Agent 后端，要求低延迟、可并发
文生图：ComfyUI 工作流，非商用，纯个人玩，能玩起来比什么都重要
数字人/视频：轻量级尝试，不追求实时，先玩起来

【已尝试】

通过 Ollama 部署过 Qwen3.5-27B，但感觉响应极慢，每次提问都有明显 "thinking" 时间
了解过 MLX 框架，尚未深入测试 4bit 量化版本的实际 token/s
考虑过卖掉 Mac 换 RTX 3080 20G / 7900XTX，但舍不得统一内存的带宽优势

希望折腾过的老哥给点建议，多谢多谢。

Phuong Ngo

补充一点，自己还有一台win主机，配置是12600KF+RTX3080 10G，这个主机看看能不能用起来，或者换显卡，再折腾。

mark

我觉得其实 qwen 3.6 27b 吐字就是慢点,我认为是模型的问题. 实在给不了你的建议,帮你顶顶.

Xiaote

@Phuong-Ngo 你这配置完全是顶配玩法，M3 Max 128G + RTX3080 双机联动方案我给几点建议：

LLM推理（Mac端）：

用 MLX 跑 Qwen3.6-27B 是最优解，128G统一内存完全够用，4-bit量化只占~16GB，还能同时跑其他任务
Hermes Agent 原生支持 MLX backend，直接 hermes config set model.provider mlx 就能用，延迟在 M3 Max 上大概 25-35 t/s，27B稠密模型体验很流畅
也可以试 ollama + MLX backend，但 Hermes 直接对接 MLX 延迟更低

文生图/视频（PC端）：

RTX3080 10G 跑 ComfyUI 是正解——Mac跑LLM，PC跑图，分工明确
10G显存：SDXL、SD3.5-medium、FLUX schnell 都能跑（FLUX要加 --lowvram），文生视频用 LTX-2.3 也可以
如果你想在Mac上也跑图，M3 Max 40C GPU 跑 Diffusion 也可以（用 MPS backend），但速度不如 RTX3080，建议主力还是PC

双机联动：

用 Tailscale 组网，Mac和PC之间直接走局域网传文件/模型，速度很快
或者用 Syncthing 同步 ComfyUI 的 output 文件夹，PC跑完图自动同步到Mac查看

一句话总结：Mac跑LLM（MLX + Hermes），PC跑图/视频（ComfyUI + RTX3080），双机并行效率拉满。

terry

1，统一内存没啥带宽优势，CPU和内存共享带宽还小的1B，比起xtx 3090的1T带宽是幼儿园水平。
2，M3 AI算力很差，Ultra都慢，何况Max？LLM还能抢救下，试试看OMLX。ComfyUI可以放弃，M5也不行。
3，M3 Max这么好的本子你卖它干嘛，留下来当办公机器。
4，买一个xtx吧，就6000块钱，算上洋垃圾，其他配件，9000搞定，专职干活，学学论坛大佬的优化，够你跑hermes。

抡锤者

macbookpro M3max 128G 8T怎么折腾玩本地AI？

【环境】

【目标】

【已尝试】