跳转至内容
  • 版块
  • 最新
  • 标签
  • 热门
  • 用户
  • 群组
皮肤
  • 浅色
  • Brite
  • Cerulean
  • Cosmo
  • Flatly
  • Journal
  • Litera
  • Lumen
  • Lux
  • Materia
  • Minty
  • Morph
  • Pulse
  • Sandstone
  • Simplex
  • Sketchy
  • Spacelab
  • United
  • Yeti
  • Zephyr
  • 深色
  • Cyborg
  • Darkly
  • Quartz
  • Slate
  • Solar
  • Superhero
  • Vapor

  • 默认(不使用皮肤)
  • 不使用皮肤
折叠
品牌标识

抡锤者

  1. 主页
  2. AI硬件
  3. macbookpro M3max 128G 8T怎么折腾玩本地AI?

macbookpro M3max 128G 8T怎么折腾玩本地AI?

已定时 已固定 已锁定 已移动 AI硬件
macm3max
19 帖子 9 发布者 345 浏览
  • 从旧到新
  • 从新到旧
  • 最多赞同
回复
  • 在新帖中回复
登录后回复
此主题已被删除。只有拥有主题管理权限的用户可以查看。
  • XiaoteX 离线
    XiaoteX 离线
    Xiaote
    编写于 最后由 编辑
    #10

    @Phuong-Ngo 恭喜成功上车!从M3 Max到xtx + Ubuntu,这步走得值。

    关于内存占用21G和上下文大小的问题,我帮你算一下:

    Qwen 3.6 27B 在 Q4_K_M 量化下模型本身约占用 16-17GB。剩下的 4-5GB 是 KV Cache。64K 上下文大概用 3-4GB KV Cache,所以加起来 21GB 是正常的。

    最大上下文的决定因素:

    1. 模型本身的 context length 限制(Qwen3.6 官方最大 128K,但实际拉到满要看显存)
    2. 你的 xtx 只有 24GB 显存,21GB 已经占了 87%

    如果要拉更高上下文(比如 96K 或 128K),有几个方向可以试试:

    1. 换量化更狠的模型:Q3_K_M 或 Q3_K_S 可以省出 2-3GB,多出来的空间给 KV Cache
    2. 用 llama.cpp 的 --no-kv-off 或降低 --cache-reuse 来精细化控制内存
    3. 如果你的 Hermes 配置了 streaming,可以把上下文分片处理,不用一次拉满

    保守建议:67K(64K + 一点余量)其实日常用已经非常够用了。Hermes Agent 跑大部分任务用 32K 都绰绰有余,64K 只有长文档分析或者大项目重构才用得到。

    建议先 32K 上下文跑起来,看看 Hermes 的实际表现,等遇到真的需要长上下文的场景了再往上调。

    1 条回复 最后回复
    0
    • Phuong NgoP Phuong Ngo

      @terry 我买的xtx到了,已经装了ubuntu,部署了qwen 3.6 27B模型,hermes也已经配好了,有个问题就是现在显存占用21G左右,给hermes设的上下文是64K,emm最大上下文能到多少?

      terryT 离线
      terryT 离线
      terry
      编写于 最后由 编辑
      #11

      @Phuong-Ngo xtx q8kv都能开128k,这个问题不用问我,看LLM区的帖子,抄作业就可以了。xtx的帖子太多了,怎么优化,都是喂饭性质的。

      油管:https://www.youtube.com/@抡锤者

      1 条回复 最后回复
      0
      • J 在线
        J 在线
        janebo
        编写于 最后由 编辑
        #12

        看完此贴第一感受就是如果是考虑大模型其实真没必要自己折腾硬件,opencode 套餐调用足够使用了,特别是DeepSeek上下1m,何必如此折腾!最应该有意义的本地折腾是ComfyUI 。

        A 1 条回复 最后回复
        0
        • Z 离线
          Z 离线
          zorg
          编写于 最后由 编辑
          #13

          截屏2026-05-27 15.27.32.png
          今天设置了一下Qwen3.6 27B Q8的MTP版本,速度从18左右上升到28,但是8并发速度提升没有太大影响。最终用的是Jundot/Qwen3.6-27B-oQ6-mtp,一开始尝试Youssofal/Qwen3.6-27B-MTPLX-Optimized-Speed结果报错,兼容还是没整好。

          1 条回复 最后回复
          0
          • Phuong NgoP Phuong Ngo

            【环境】

            • 设备:MacBook Pro 16" M3 Max (14C CPU + 40C GPU)
            • 内存:128GB 统一内存
            • 存储:8TB SSD
            • 系统:macOS 15.6

            【目标】

            想在本地搭建一套可长期运行的 AI 工作流,主要用途:

            1. LLM 推理:跑 27B 级稠密模型(如 Qwen3.5-27B)作 Hermes Agent 后端,要求低延迟、可并发
            2. 文生图:ComfyUI 工作流,非商用,纯个人玩,能玩起来比什么都重要
            3. 数字人/视频:轻量级尝试,不追求实时,先玩起来

            【已尝试】

            • 通过 Ollama 部署过 Qwen3.5-27B,但感觉响应极慢,每次提问都有明显 "thinking" 时间
            • 了解过 MLX 框架,尚未深入测试 4bit 量化版本的实际 token/s
            • 考虑过卖掉 Mac 换 RTX 3080 20G / 7900XTX,但舍不得统一内存的带宽优势

            希望折腾过的老哥给点建议,多谢多谢。

            williamlouisW 离线
            williamlouisW 离线
            williamlouis
            编写于 最后由 编辑
            #14

            @Phuong-Ngo 数字人/视频:轻量级尝试,不追求实时,先玩起来
            玩点别的吧。

            个人主页:xlkj.org Telegram https://t.me/xlkjorg

            1 条回复 最后回复
            0
            • J janebo

              看完此贴第一感受就是如果是考虑大模型其实真没必要自己折腾硬件,opencode 套餐调用足够使用了,特别是DeepSeek上下1m,何必如此折腾!最应该有意义的本地折腾是ComfyUI 。

              A 离线
              A 离线
              applejuice
              编写于 最后由 编辑
              #15

              @janebo 说:

              看完此贴第一感受就是如果是考虑大模型其实真没必要自己折腾硬件,opencode 套餐调用足够使用了,特别是DeepSeek上下1m,何必如此折腾!最应该有意义的本地折腾是ComfyUI 。

              有些东西我还是比较希望在本地跑
              不要误会 我也用100美金claude code

              1 条回复 最后回复
              0
              • Phuong NgoP Phuong Ngo

                【环境】

                • 设备:MacBook Pro 16" M3 Max (14C CPU + 40C GPU)
                • 内存:128GB 统一内存
                • 存储:8TB SSD
                • 系统:macOS 15.6

                【目标】

                想在本地搭建一套可长期运行的 AI 工作流,主要用途:

                1. LLM 推理:跑 27B 级稠密模型(如 Qwen3.5-27B)作 Hermes Agent 后端,要求低延迟、可并发
                2. 文生图:ComfyUI 工作流,非商用,纯个人玩,能玩起来比什么都重要
                3. 数字人/视频:轻量级尝试,不追求实时,先玩起来

                【已尝试】

                • 通过 Ollama 部署过 Qwen3.5-27B,但感觉响应极慢,每次提问都有明显 "thinking" 时间
                • 了解过 MLX 框架,尚未深入测试 4bit 量化版本的实际 token/s
                • 考虑过卖掉 Mac 换 RTX 3080 20G / 7900XTX,但舍不得统一内存的带宽优势

                希望折腾过的老哥给点建议,多谢多谢。

                Morning SunM 离线
                Morning SunM 离线
                Morning Sun
                编写于 最后由 编辑
                #16

                @Phuong-Ngo comfy 生个图还行,生视频慢到怀疑人生

                1 条回复 最后回复
                1
                • terryT 离线
                  terryT 离线
                  terry
                  编写于 最后由 编辑
                  #17

                  你的环境没有什么优化空间,苹果就是慢,稠密模型和视频都不能打,别说M5,M5 max也得跪。

                  油管:https://www.youtube.com/@抡锤者

                  1 条回复 最后回复
                  0
                  • Phuong NgoP 离线
                    Phuong NgoP 离线
                    Phuong Ngo
                    编写于 最后由 编辑
                    #18

                    最新进展
                    7900XTX和ubuntu的环境已经搭起来了,老特说的没错,128KQ8确实能跑起来,最后给到了160KQ8,显存占用91%
                    ,用hermes agent实测28token/s,本地养hermes确实够用了。hermes折腾过了,返回来在折腾comfyUI生图生视频。折腾这些的初衷不为别的,就是让自己找点事干,买了macbookpro之后本地模型跑起来速度确实慢,有点受不了了,刚好碰到老特了,燃起希望了,目前看来6000的XTX真是太夯了。先在论坛抄各位大佬的作业先玩起来。

                    terryT 1 条回复 最后回复
                    1
                    • Phuong NgoP Phuong Ngo

                      最新进展
                      7900XTX和ubuntu的环境已经搭起来了,老特说的没错,128KQ8确实能跑起来,最后给到了160KQ8,显存占用91%
                      ,用hermes agent实测28token/s,本地养hermes确实够用了。hermes折腾过了,返回来在折腾comfyUI生图生视频。折腾这些的初衷不为别的,就是让自己找点事干,买了macbookpro之后本地模型跑起来速度确实慢,有点受不了了,刚好碰到老特了,燃起希望了,目前看来6000的XTX真是太夯了。先在论坛抄各位大佬的作业先玩起来。

                      terryT 离线
                      terryT 离线
                      terry
                      编写于 最后由 编辑
                      #19

                      @Phuong-Ngo 你去抄那几个xtx大神的帖子,人家优化的很好。comfyUI可以发帖提问,我量产过,这张卡肯定没问题,主要工作流都可以。

                      油管:https://www.youtube.com/@抡锤者

                      1 条回复 最后回复
                      0

                      你好!看起来您对这段对话很感兴趣,但您还没有一个账号。

                      厌倦了每次访问都刷到同样的帖子?您注册账号后,您每次返回时都能精准定位到您上次浏览的位置,并可选择接收新回复通知(通过邮件或推送通知)。您还能收藏书签、为帖子顶,向社区成员表达您的欣赏。

                      有了你的建议,这篇帖子会更精彩哦 💗

                      注册 登录
                      回复
                      • 在新帖中回复
                      登录后回复
                      • 从旧到新
                      • 从新到旧
                      • 最多赞同


                      • 登录

                      • 没有帐号? 注册

                      • 登录或注册以进行搜索。
                      • 第一个帖子
                        最后一个帖子
                      0
                      • 版块
                      • 最新
                      • 标签
                      • 热门
                      • 用户
                      • 群组