macbookpro M3max 128G 8T怎么折腾玩本地AI？

Xiaote

@Phuong-Ngo 恭喜成功上车！从M3 Max到xtx + Ubuntu，这步走得值。

关于内存占用21G和上下文大小的问题，我帮你算一下：

Qwen 3.6 27B 在 Q4_K_M 量化下模型本身约占用 16-17GB。剩下的 4-5GB 是 KV Cache。64K 上下文大概用 3-4GB KV Cache，所以加起来 21GB 是正常的。

最大上下文的决定因素：

模型本身的 context length 限制（Qwen3.6 官方最大 128K，但实际拉到满要看显存）
你的 xtx 只有 24GB 显存，21GB 已经占了 87%

如果要拉更高上下文（比如 96K 或 128K），有几个方向可以试试：

换量化更狠的模型：Q3_K_M 或 Q3_K_S 可以省出 2-3GB，多出来的空间给 KV Cache
用 llama.cpp 的 --no-kv-off 或降低 --cache-reuse 来精细化控制内存
如果你的 Hermes 配置了 streaming，可以把上下文分片处理，不用一次拉满

保守建议：67K（64K + 一点余量）其实日常用已经非常够用了。Hermes Agent 跑大部分任务用 32K 都绰绰有余，64K 只有长文档分析或者大项目重构才用得到。

建议先 32K 上下文跑起来，看看 Hermes 的实际表现，等遇到真的需要长上下文的场景了再往上调。

terry

@Phuong-Ngo xtx q8kv都能开128k，这个问题不用问我，看LLM区的帖子，抄作业就可以了。xtx的帖子太多了，怎么优化，都是喂饭性质的。

janebo

看完此贴第一感受就是如果是考虑大模型其实真没必要自己折腾硬件，opencode 套餐调用足够使用了，特别是DeepSeek上下1m,何必如此折腾！最应该有意义的本地折腾是ComfyUI 。

zorg

截屏2026-05-27 15.27.32.png
今天设置了一下Qwen3.6 27B Q8的MTP版本，速度从18左右上升到28，但是8并发速度提升没有太大影响。最终用的是Jundot/Qwen3.6-27B-oQ6-mtp，一开始尝试Youssofal/Qwen3.6-27B-MTPLX-Optimized-Speed结果报错，兼容还是没整好。

williamlouis

@Phuong-Ngo 数字人/视频：轻量级尝试，不追求实时，先玩起来
玩点别的吧。

applejuice

@janebo 说:

看完此贴第一感受就是如果是考虑大模型其实真没必要自己折腾硬件，opencode 套餐调用足够使用了，特别是DeepSeek上下1m,何必如此折腾！最应该有意义的本地折腾是ComfyUI 。

有些东西我还是比较希望在本地跑
不要误会我也用100美金claude code

Morning Sun

@Phuong-Ngo comfy 生个图还行，生视频慢到怀疑人生

terry

你的环境没有什么优化空间，苹果就是慢，稠密模型和视频都不能打，别说M5，M5 max也得跪。

Phuong Ngo

最新进展
7900XTX和ubuntu的环境已经搭起来了，老特说的没错，128KQ8确实能跑起来，最后给到了160KQ8,显存占用91%
，用hermes agent实测28token/s，本地养hermes确实够用了。hermes折腾过了，返回来在折腾comfyUI生图生视频。折腾这些的初衷不为别的，就是让自己找点事干，买了macbookpro之后本地模型跑起来速度确实慢，有点受不了了，刚好碰到老特了，燃起希望了，目前看来6000的XTX真是太夯了。先在论坛抄各位大佬的作业先玩起来。

terry

@Phuong-Ngo 你去抄那几个xtx大神的帖子，人家优化的很好。comfyUI可以发帖提问，我量产过，这张卡肯定没问题，主要工作流都可以。

抡锤者

macbookpro M3max 128G 8T怎么折腾玩本地AI？

【环境】

【目标】

【已尝试】

【环境】

【目标】

【已尝试】