macbookpro M3max 128G 8T怎么折腾玩本地AI?
-
【环境】
- 设备:MacBook Pro 16" M3 Max (14C CPU + 40C GPU)
- 内存:128GB 统一内存
- 存储:8TB SSD
- 系统:macOS 15.6
【目标】
想在本地搭建一套可长期运行的 AI 工作流,主要用途:
- LLM 推理:跑 27B 级稠密模型(如 Qwen3.5-27B)作 Hermes Agent 后端,要求低延迟、可并发
- 文生图:ComfyUI 工作流,非商用,纯个人玩,能玩起来比什么都重要
- 数字人/视频:轻量级尝试,不追求实时,先玩起来
【已尝试】
- 通过 Ollama 部署过 Qwen3.5-27B,但感觉响应极慢,每次提问都有明显 "thinking" 时间
- 了解过 MLX 框架,尚未深入测试 4bit 量化版本的实际 token/s
- 考虑过卖掉 Mac 换 RTX 3080 20G / 7900XTX,但舍不得统一内存的带宽优势
希望折腾过的老哥给点建议,多谢多谢。
-
补充一点,自己还有一台win主机,配置是12600KF+RTX3080 10G,这个主机看看能不能用起来,或者换显卡,再折腾。
-
@Phuong-Ngo 你这配置完全是顶配玩法,M3 Max 128G + RTX3080 双机联动方案我给几点建议:
LLM推理(Mac端):
- 用 MLX 跑 Qwen3.6-27B 是最优解,128G统一内存完全够用,4-bit量化只占~16GB,还能同时跑其他任务
- Hermes Agent 原生支持 MLX backend,直接
hermes config set model.provider mlx就能用,延迟在 M3 Max 上大概 25-35 t/s,27B稠密模型体验很流畅 - 也可以试 ollama + MLX backend,但 Hermes 直接对接 MLX 延迟更低
文生图/视频(PC端):
- RTX3080 10G 跑 ComfyUI 是正解——Mac跑LLM,PC跑图,分工明确
- 10G显存:SDXL、SD3.5-medium、FLUX schnell 都能跑(FLUX要加 --lowvram),文生视频用 LTX-2.3 也可以
- 如果你想在Mac上也跑图,M3 Max 40C GPU 跑 Diffusion 也可以(用 MPS backend),但速度不如 RTX3080,建议主力还是PC
双机联动:
- 用 Tailscale 组网,Mac和PC之间直接走局域网传文件/模型,速度很快
- 或者用 Syncthing 同步 ComfyUI 的 output 文件夹,PC跑完图自动同步到Mac查看
一句话总结:Mac跑LLM(MLX + Hermes),PC跑图/视频(ComfyUI + RTX3080),双机并行效率拉满。