macbookpro M3max 128G 8T怎么折腾玩本地AI？

Phuong Ngo

【环境】

设备：MacBook Pro 16" M3 Max (14C CPU + 40C GPU)
内存：128GB 统一内存
存储：8TB SSD
系统：macOS 15.6

【目标】

想在本地搭建一套可长期运行的 AI 工作流，主要用途：

LLM 推理：跑 27B 级稠密模型（如 Qwen3.5-27B）作 Hermes Agent 后端，要求低延迟、可并发
文生图：ComfyUI 工作流，非商用，纯个人玩，能玩起来比什么都重要
数字人/视频：轻量级尝试，不追求实时，先玩起来

【已尝试】

通过 Ollama 部署过 Qwen3.5-27B，但感觉响应极慢，每次提问都有明显 "thinking" 时间
了解过 MLX 框架，尚未深入测试 4bit 量化版本的实际 token/s
考虑过卖掉 Mac 换 RTX 3080 20G / 7900XTX，但舍不得统一内存的带宽优势

希望折腾过的老哥给点建议，多谢多谢。

Phuong Ngo

补充一点，自己还有一台win主机，配置是12600KF+RTX3080 10G，这个主机看看能不能用起来，或者换显卡，再折腾。

mark

我觉得其实 qwen 3.6 27b 吐字就是慢点,我认为是模型的问题. 实在给不了你的建议,帮你顶顶.

Xiaote

@Phuong-Ngo 你这配置完全是顶配玩法，M3 Max 128G + RTX3080 双机联动方案我给几点建议：

LLM推理（Mac端）：

用 MLX 跑 Qwen3.6-27B 是最优解，128G统一内存完全够用，4-bit量化只占~16GB，还能同时跑其他任务
Hermes Agent 原生支持 MLX backend，直接 hermes config set model.provider mlx 就能用，延迟在 M3 Max 上大概 25-35 t/s，27B稠密模型体验很流畅
也可以试 ollama + MLX backend，但 Hermes 直接对接 MLX 延迟更低

文生图/视频（PC端）：

RTX3080 10G 跑 ComfyUI 是正解——Mac跑LLM，PC跑图，分工明确
10G显存：SDXL、SD3.5-medium、FLUX schnell 都能跑（FLUX要加 --lowvram），文生视频用 LTX-2.3 也可以
如果你想在Mac上也跑图，M3 Max 40C GPU 跑 Diffusion 也可以（用 MPS backend），但速度不如 RTX3080，建议主力还是PC

双机联动：

用 Tailscale 组网，Mac和PC之间直接走局域网传文件/模型，速度很快
或者用 Syncthing 同步 ComfyUI 的 output 文件夹，PC跑完图自动同步到Mac查看

一句话总结：Mac跑LLM（MLX + Hermes），PC跑图/视频（ComfyUI + RTX3080），双机并行效率拉满。

terry

1，统一内存没啥带宽优势，CPU和内存共享带宽还小的1B，比起xtx 3090的1T带宽是幼儿园水平。
2，M3 AI算力很差，Ultra都慢，何况Max？LLM还能抢救下，试试看OMLX。ComfyUI可以放弃，M5也不行。
3，M3 Max这么好的本子你卖它干嘛，留下来当办公机器。
4，买一个xtx吧，就6000块钱，算上洋垃圾，其他配件，9000搞定，专职干活，学学论坛大佬的优化，够你跑hermes。

Phuong Ngo

@terry 好的，老特。我下单了xtx，京东6089，三年质保，准备在旧的windows主机上跑个Ubuntu，装个双系统先玩玩，后面再买洋垃圾在攒个主机。macbookpro暂时也先不卖了，多个折腾的硬件吧，m3max不跑大模型性能还是非常强的，就是可惜了128G的大内存了。

Phuong Ngo

@mark 等我买的xtx显卡回来测试一下，看看是模型问题还是硬件带宽就是不行。

terry

@Phuong-Ngo 你的macbook卖了绝对后悔，这么好的机器，这两年会越来越贵，一直到AI泡沫破碎，卖了你上哪里去淘替代品？

Phuong Ngo

@terry 我买的xtx到了，已经装了ubuntu，部署了qwen 3.6 27B模型，hermes也已经配好了，有个问题就是现在显存占用21G左右，给hermes设的上下文是64K，emm最大上下文能到多少？

Xiaote

@Phuong-Ngo 恭喜成功上车！从M3 Max到xtx + Ubuntu，这步走得值。

关于内存占用21G和上下文大小的问题，我帮你算一下：

Qwen 3.6 27B 在 Q4_K_M 量化下模型本身约占用 16-17GB。剩下的 4-5GB 是 KV Cache。64K 上下文大概用 3-4GB KV Cache，所以加起来 21GB 是正常的。

最大上下文的决定因素：

模型本身的 context length 限制（Qwen3.6 官方最大 128K，但实际拉到满要看显存）
你的 xtx 只有 24GB 显存，21GB 已经占了 87%

如果要拉更高上下文（比如 96K 或 128K），有几个方向可以试试：

换量化更狠的模型：Q3_K_M 或 Q3_K_S 可以省出 2-3GB，多出来的空间给 KV Cache
用 llama.cpp 的 --no-kv-off 或降低 --cache-reuse 来精细化控制内存
如果你的 Hermes 配置了 streaming，可以把上下文分片处理，不用一次拉满

保守建议：67K（64K + 一点余量）其实日常用已经非常够用了。Hermes Agent 跑大部分任务用 32K 都绰绰有余，64K 只有长文档分析或者大项目重构才用得到。

建议先 32K 上下文跑起来，看看 Hermes 的实际表现，等遇到真的需要长上下文的场景了再往上调。

terry

@Phuong-Ngo xtx q8kv都能开128k，这个问题不用问我，看LLM区的帖子，抄作业就可以了。xtx的帖子太多了，怎么优化，都是喂饭性质的。

janebo

看完此贴第一感受就是如果是考虑大模型其实真没必要自己折腾硬件，opencode 套餐调用足够使用了，特别是DeepSeek上下1m,何必如此折腾！最应该有意义的本地折腾是ComfyUI 。

zorg

截屏2026-05-27 15.27.32.png
今天设置了一下Qwen3.6 27B Q8的MTP版本，速度从18左右上升到28，但是8并发速度提升没有太大影响。最终用的是Jundot/Qwen3.6-27B-oQ6-mtp，一开始尝试Youssofal/Qwen3.6-27B-MTPLX-Optimized-Speed结果报错，兼容还是没整好。

williamlouis

@Phuong-Ngo 数字人/视频：轻量级尝试，不追求实时，先玩起来
玩点别的吧。

applejuice

@janebo 说:

看完此贴第一感受就是如果是考虑大模型其实真没必要自己折腾硬件，opencode 套餐调用足够使用了，特别是DeepSeek上下1m,何必如此折腾！最应该有意义的本地折腾是ComfyUI 。

有些东西我还是比较希望在本地跑
不要误会我也用100美金claude code

Morning Sun

@Phuong-Ngo comfy 生个图还行，生视频慢到怀疑人生

terry

你的环境没有什么优化空间，苹果就是慢，稠密模型和视频都不能打，别说M5，M5 max也得跪。

Phuong Ngo

最新进展
7900XTX和ubuntu的环境已经搭起来了，老特说的没错，128KQ8确实能跑起来，最后给到了160KQ8,显存占用91%
，用hermes agent实测28token/s，本地养hermes确实够用了。hermes折腾过了，返回来在折腾comfyUI生图生视频。折腾这些的初衷不为别的，就是让自己找点事干，买了macbookpro之后本地模型跑起来速度确实慢，有点受不了了，刚好碰到老特了，燃起希望了，目前看来6000的XTX真是太夯了。先在论坛抄各位大佬的作业先玩起来。

terry

@Phuong-Ngo 你去抄那几个xtx大神的帖子，人家优化的很好。comfyUI可以发帖提问，我量产过，这张卡肯定没问题，主要工作流都可以。

抡锤者

macbookpro M3max 128G 8T怎么折腾玩本地AI？

【环境】

【目标】

【已尝试】

【环境】

【目标】

【已尝试】

【环境】

【目标】

【已尝试】