跳转至内容
  • 版块
  • 最新
  • 标签
  • 热门
  • 用户
  • 群组
皮肤
  • 浅色
  • Brite
  • Cerulean
  • Cosmo
  • Flatly
  • Journal
  • Litera
  • Lumen
  • Lux
  • Materia
  • Minty
  • Morph
  • Pulse
  • Sandstone
  • Simplex
  • Sketchy
  • Spacelab
  • United
  • Yeti
  • Zephyr
  • 深色
  • Cyborg
  • Darkly
  • Quartz
  • Slate
  • Solar
  • Superhero
  • Vapor

  • 默认(不使用皮肤)
  • 不使用皮肤
折叠
品牌标识

抡锤者

  1. 主页
  2. AI硬件
  3. macbookpro M3max 128G 8T怎么折腾玩本地AI?

macbookpro M3max 128G 8T怎么折腾玩本地AI?

已定时 已固定 已锁定 已移动 AI硬件
macm3max
19 帖子 9 发布者 346 浏览
  • 从旧到新
  • 从新到旧
  • 最多赞同
回复
  • 在新帖中回复
登录后回复
此主题已被删除。只有拥有主题管理权限的用户可以查看。
  • Phuong NgoP 离线
    Phuong NgoP 离线
    Phuong Ngo
    编写于 最后由 编辑
    #1

    【环境】

    • 设备:MacBook Pro 16" M3 Max (14C CPU + 40C GPU)
    • 内存:128GB 统一内存
    • 存储:8TB SSD
    • 系统:macOS 15.6

    【目标】

    想在本地搭建一套可长期运行的 AI 工作流,主要用途:

    1. LLM 推理:跑 27B 级稠密模型(如 Qwen3.5-27B)作 Hermes Agent 后端,要求低延迟、可并发
    2. 文生图:ComfyUI 工作流,非商用,纯个人玩,能玩起来比什么都重要
    3. 数字人/视频:轻量级尝试,不追求实时,先玩起来

    【已尝试】

    • 通过 Ollama 部署过 Qwen3.5-27B,但感觉响应极慢,每次提问都有明显 "thinking" 时间
    • 了解过 MLX 框架,尚未深入测试 4bit 量化版本的实际 token/s
    • 考虑过卖掉 Mac 换 RTX 3080 20G / 7900XTX,但舍不得统一内存的带宽优势

    希望折腾过的老哥给点建议,多谢多谢。

    williamlouisW Morning SunM 2 条回复 最后回复
    0
    • Phuong NgoP 离线
      Phuong NgoP 离线
      Phuong Ngo
      编写于 最后由 编辑
      #2

      补充一点,自己还有一台win主机,配置是12600KF+RTX3080 10G,这个主机看看能不能用起来,或者换显卡,再折腾。

      1 条回复 最后回复
      0
      • M 离线
        M 离线
        mark
        编写于 最后由 编辑
        #3

        我觉得 其实 qwen 3.6 27b 吐字 就是慢点,我认为是模型的问题. 实在给不了 你 的建议,帮你顶顶.

        Phuong NgoP 1 条回复 最后回复
        0
        • XiaoteX 离线
          XiaoteX 离线
          Xiaote
          编写于 最后由 编辑
          #4

          @Phuong-Ngo 你这配置完全是顶配玩法,M3 Max 128G + RTX3080 双机联动方案我给几点建议:

          LLM推理(Mac端):

          • 用 MLX 跑 Qwen3.6-27B 是最优解,128G统一内存完全够用,4-bit量化只占~16GB,还能同时跑其他任务
          • Hermes Agent 原生支持 MLX backend,直接 hermes config set model.provider mlx 就能用,延迟在 M3 Max 上大概 25-35 t/s,27B稠密模型体验很流畅
          • 也可以试 ollama + MLX backend,但 Hermes 直接对接 MLX 延迟更低

          文生图/视频(PC端):

          • RTX3080 10G 跑 ComfyUI 是正解——Mac跑LLM,PC跑图,分工明确
          • 10G显存:SDXL、SD3.5-medium、FLUX schnell 都能跑(FLUX要加 --lowvram),文生视频用 LTX-2.3 也可以
          • 如果你想在Mac上也跑图,M3 Max 40C GPU 跑 Diffusion 也可以(用 MPS backend),但速度不如 RTX3080,建议主力还是PC

          双机联动:

          • 用 Tailscale 组网,Mac和PC之间直接走局域网传文件/模型,速度很快
          • 或者用 Syncthing 同步 ComfyUI 的 output 文件夹,PC跑完图自动同步到Mac查看

          一句话总结:Mac跑LLM(MLX + Hermes),PC跑图/视频(ComfyUI + RTX3080),双机并行效率拉满。

          1 条回复 最后回复
          0
          • terryT 离线
            terryT 离线
            terry
            编写于 最后由 terry 编辑
            #5

            1,统一内存没啥带宽优势,CPU和内存共享带宽还小的1B,比起xtx 3090的1T带宽是幼儿园水平。
            2,M3 AI算力很差,Ultra都慢,何况Max?LLM还能抢救下,试试看OMLX。ComfyUI可以放弃,M5也不行。
            3,M3 Max这么好的本子你卖它干嘛,留下来当办公机器。
            4,买一个xtx吧,就6000块钱,算上洋垃圾,其他配件,9000搞定,专职干活,学学论坛大佬的优化,够你跑hermes。

            油管:https://www.youtube.com/@抡锤者

            Phuong NgoP 2 条回复 最后回复
            2
            • terryT terry

              1,统一内存没啥带宽优势,CPU和内存共享带宽还小的1B,比起xtx 3090的1T带宽是幼儿园水平。
              2,M3 AI算力很差,Ultra都慢,何况Max?LLM还能抢救下,试试看OMLX。ComfyUI可以放弃,M5也不行。
              3,M3 Max这么好的本子你卖它干嘛,留下来当办公机器。
              4,买一个xtx吧,就6000块钱,算上洋垃圾,其他配件,9000搞定,专职干活,学学论坛大佬的优化,够你跑hermes。

              Phuong NgoP 离线
              Phuong NgoP 离线
              Phuong Ngo
              编写于 最后由 编辑
              #6

              @terry 好的,老特。我下单了xtx,京东6089,三年质保,准备在旧的windows主机上跑个Ubuntu,装个双系统先玩玩,后面再买洋垃圾在攒个主机。macbookpro暂时也先不卖了,多个折腾的硬件吧,m3max不跑大模型性能还是非常强的,就是可惜了128G的大内存了。

              terryT 1 条回复 最后回复
              1
              • M mark

                我觉得 其实 qwen 3.6 27b 吐字 就是慢点,我认为是模型的问题. 实在给不了 你 的建议,帮你顶顶.

                Phuong NgoP 离线
                Phuong NgoP 离线
                Phuong Ngo
                编写于 最后由 编辑
                #7

                @mark 等我买的xtx显卡回来测试一下,看看是模型问题还是硬件带宽就是不行。

                1 条回复 最后回复
                0
                • Phuong NgoP Phuong Ngo

                  @terry 好的,老特。我下单了xtx,京东6089,三年质保,准备在旧的windows主机上跑个Ubuntu,装个双系统先玩玩,后面再买洋垃圾在攒个主机。macbookpro暂时也先不卖了,多个折腾的硬件吧,m3max不跑大模型性能还是非常强的,就是可惜了128G的大内存了。

                  terryT 离线
                  terryT 离线
                  terry
                  编写于 最后由 terry 编辑
                  #8

                  @Phuong-Ngo 你的macbook卖了绝对后悔,这么好的机器,这两年会越来越贵,一直到AI泡沫破碎,卖了你上哪里去淘替代品?

                  油管:https://www.youtube.com/@抡锤者

                  1 条回复 最后回复
                  0
                  • terryT terry

                    1,统一内存没啥带宽优势,CPU和内存共享带宽还小的1B,比起xtx 3090的1T带宽是幼儿园水平。
                    2,M3 AI算力很差,Ultra都慢,何况Max?LLM还能抢救下,试试看OMLX。ComfyUI可以放弃,M5也不行。
                    3,M3 Max这么好的本子你卖它干嘛,留下来当办公机器。
                    4,买一个xtx吧,就6000块钱,算上洋垃圾,其他配件,9000搞定,专职干活,学学论坛大佬的优化,够你跑hermes。

                    Phuong NgoP 离线
                    Phuong NgoP 离线
                    Phuong Ngo
                    编写于 最后由 编辑
                    #9

                    @terry 我买的xtx到了,已经装了ubuntu,部署了qwen 3.6 27B模型,hermes也已经配好了,有个问题就是现在显存占用21G左右,给hermes设的上下文是64K,emm最大上下文能到多少?

                    terryT 1 条回复 最后回复
                    0
                    • XiaoteX 离线
                      XiaoteX 离线
                      Xiaote
                      编写于 最后由 编辑
                      #10

                      @Phuong-Ngo 恭喜成功上车!从M3 Max到xtx + Ubuntu,这步走得值。

                      关于内存占用21G和上下文大小的问题,我帮你算一下:

                      Qwen 3.6 27B 在 Q4_K_M 量化下模型本身约占用 16-17GB。剩下的 4-5GB 是 KV Cache。64K 上下文大概用 3-4GB KV Cache,所以加起来 21GB 是正常的。

                      最大上下文的决定因素:

                      1. 模型本身的 context length 限制(Qwen3.6 官方最大 128K,但实际拉到满要看显存)
                      2. 你的 xtx 只有 24GB 显存,21GB 已经占了 87%

                      如果要拉更高上下文(比如 96K 或 128K),有几个方向可以试试:

                      1. 换量化更狠的模型:Q3_K_M 或 Q3_K_S 可以省出 2-3GB,多出来的空间给 KV Cache
                      2. 用 llama.cpp 的 --no-kv-off 或降低 --cache-reuse 来精细化控制内存
                      3. 如果你的 Hermes 配置了 streaming,可以把上下文分片处理,不用一次拉满

                      保守建议:67K(64K + 一点余量)其实日常用已经非常够用了。Hermes Agent 跑大部分任务用 32K 都绰绰有余,64K 只有长文档分析或者大项目重构才用得到。

                      建议先 32K 上下文跑起来,看看 Hermes 的实际表现,等遇到真的需要长上下文的场景了再往上调。

                      1 条回复 最后回复
                      0
                      • Phuong NgoP Phuong Ngo

                        @terry 我买的xtx到了,已经装了ubuntu,部署了qwen 3.6 27B模型,hermes也已经配好了,有个问题就是现在显存占用21G左右,给hermes设的上下文是64K,emm最大上下文能到多少?

                        terryT 离线
                        terryT 离线
                        terry
                        编写于 最后由 编辑
                        #11

                        @Phuong-Ngo xtx q8kv都能开128k,这个问题不用问我,看LLM区的帖子,抄作业就可以了。xtx的帖子太多了,怎么优化,都是喂饭性质的。

                        油管:https://www.youtube.com/@抡锤者

                        1 条回复 最后回复
                        0
                        • J 离线
                          J 离线
                          janebo
                          编写于 最后由 编辑
                          #12

                          看完此贴第一感受就是如果是考虑大模型其实真没必要自己折腾硬件,opencode 套餐调用足够使用了,特别是DeepSeek上下1m,何必如此折腾!最应该有意义的本地折腾是ComfyUI 。

                          A 1 条回复 最后回复
                          0
                          • Z 离线
                            Z 离线
                            zorg
                            编写于 最后由 编辑
                            #13

                            截屏2026-05-27 15.27.32.png
                            今天设置了一下Qwen3.6 27B Q8的MTP版本,速度从18左右上升到28,但是8并发速度提升没有太大影响。最终用的是Jundot/Qwen3.6-27B-oQ6-mtp,一开始尝试Youssofal/Qwen3.6-27B-MTPLX-Optimized-Speed结果报错,兼容还是没整好。

                            1 条回复 最后回复
                            0
                            • Phuong NgoP Phuong Ngo

                              【环境】

                              • 设备:MacBook Pro 16" M3 Max (14C CPU + 40C GPU)
                              • 内存:128GB 统一内存
                              • 存储:8TB SSD
                              • 系统:macOS 15.6

                              【目标】

                              想在本地搭建一套可长期运行的 AI 工作流,主要用途:

                              1. LLM 推理:跑 27B 级稠密模型(如 Qwen3.5-27B)作 Hermes Agent 后端,要求低延迟、可并发
                              2. 文生图:ComfyUI 工作流,非商用,纯个人玩,能玩起来比什么都重要
                              3. 数字人/视频:轻量级尝试,不追求实时,先玩起来

                              【已尝试】

                              • 通过 Ollama 部署过 Qwen3.5-27B,但感觉响应极慢,每次提问都有明显 "thinking" 时间
                              • 了解过 MLX 框架,尚未深入测试 4bit 量化版本的实际 token/s
                              • 考虑过卖掉 Mac 换 RTX 3080 20G / 7900XTX,但舍不得统一内存的带宽优势

                              希望折腾过的老哥给点建议,多谢多谢。

                              williamlouisW 离线
                              williamlouisW 离线
                              williamlouis
                              编写于 最后由 编辑
                              #14

                              @Phuong-Ngo 数字人/视频:轻量级尝试,不追求实时,先玩起来
                              玩点别的吧。

                              个人主页:xlkj.org Telegram https://t.me/xlkjorg

                              1 条回复 最后回复
                              0
                              • J janebo

                                看完此贴第一感受就是如果是考虑大模型其实真没必要自己折腾硬件,opencode 套餐调用足够使用了,特别是DeepSeek上下1m,何必如此折腾!最应该有意义的本地折腾是ComfyUI 。

                                A 在线
                                A 在线
                                applejuice
                                编写于 最后由 编辑
                                #15

                                @janebo 说:

                                看完此贴第一感受就是如果是考虑大模型其实真没必要自己折腾硬件,opencode 套餐调用足够使用了,特别是DeepSeek上下1m,何必如此折腾!最应该有意义的本地折腾是ComfyUI 。

                                有些东西我还是比较希望在本地跑
                                不要误会 我也用100美金claude code

                                1 条回复 最后回复
                                0
                                • Phuong NgoP Phuong Ngo

                                  【环境】

                                  • 设备:MacBook Pro 16" M3 Max (14C CPU + 40C GPU)
                                  • 内存:128GB 统一内存
                                  • 存储:8TB SSD
                                  • 系统:macOS 15.6

                                  【目标】

                                  想在本地搭建一套可长期运行的 AI 工作流,主要用途:

                                  1. LLM 推理:跑 27B 级稠密模型(如 Qwen3.5-27B)作 Hermes Agent 后端,要求低延迟、可并发
                                  2. 文生图:ComfyUI 工作流,非商用,纯个人玩,能玩起来比什么都重要
                                  3. 数字人/视频:轻量级尝试,不追求实时,先玩起来

                                  【已尝试】

                                  • 通过 Ollama 部署过 Qwen3.5-27B,但感觉响应极慢,每次提问都有明显 "thinking" 时间
                                  • 了解过 MLX 框架,尚未深入测试 4bit 量化版本的实际 token/s
                                  • 考虑过卖掉 Mac 换 RTX 3080 20G / 7900XTX,但舍不得统一内存的带宽优势

                                  希望折腾过的老哥给点建议,多谢多谢。

                                  Morning SunM 离线
                                  Morning SunM 离线
                                  Morning Sun
                                  编写于 最后由 编辑
                                  #16

                                  @Phuong-Ngo comfy 生个图还行,生视频慢到怀疑人生

                                  1 条回复 最后回复
                                  1
                                  • terryT 离线
                                    terryT 离线
                                    terry
                                    编写于 最后由 编辑
                                    #17

                                    你的环境没有什么优化空间,苹果就是慢,稠密模型和视频都不能打,别说M5,M5 max也得跪。

                                    油管:https://www.youtube.com/@抡锤者

                                    1 条回复 最后回复
                                    0
                                    • Phuong NgoP 离线
                                      Phuong NgoP 离线
                                      Phuong Ngo
                                      编写于 最后由 编辑
                                      #18

                                      最新进展
                                      7900XTX和ubuntu的环境已经搭起来了,老特说的没错,128KQ8确实能跑起来,最后给到了160KQ8,显存占用91%
                                      ,用hermes agent实测28token/s,本地养hermes确实够用了。hermes折腾过了,返回来在折腾comfyUI生图生视频。折腾这些的初衷不为别的,就是让自己找点事干,买了macbookpro之后本地模型跑起来速度确实慢,有点受不了了,刚好碰到老特了,燃起希望了,目前看来6000的XTX真是太夯了。先在论坛抄各位大佬的作业先玩起来。

                                      terryT 1 条回复 最后回复
                                      1
                                      • Phuong NgoP Phuong Ngo

                                        最新进展
                                        7900XTX和ubuntu的环境已经搭起来了,老特说的没错,128KQ8确实能跑起来,最后给到了160KQ8,显存占用91%
                                        ,用hermes agent实测28token/s,本地养hermes确实够用了。hermes折腾过了,返回来在折腾comfyUI生图生视频。折腾这些的初衷不为别的,就是让自己找点事干,买了macbookpro之后本地模型跑起来速度确实慢,有点受不了了,刚好碰到老特了,燃起希望了,目前看来6000的XTX真是太夯了。先在论坛抄各位大佬的作业先玩起来。

                                        terryT 离线
                                        terryT 离线
                                        terry
                                        编写于 最后由 编辑
                                        #19

                                        @Phuong-Ngo 你去抄那几个xtx大神的帖子,人家优化的很好。comfyUI可以发帖提问,我量产过,这张卡肯定没问题,主要工作流都可以。

                                        油管:https://www.youtube.com/@抡锤者

                                        1 条回复 最后回复
                                        0

                                        你好!看起来您对这段对话很感兴趣,但您还没有一个账号。

                                        厌倦了每次访问都刷到同样的帖子?您注册账号后,您每次返回时都能精准定位到您上次浏览的位置,并可选择接收新回复通知(通过邮件或推送通知)。您还能收藏书签、为帖子顶,向社区成员表达您的欣赏。

                                        有了你的建议,这篇帖子会更精彩哦 💗

                                        注册 登录
                                        回复
                                        • 在新帖中回复
                                        登录后回复
                                        • 从旧到新
                                        • 从新到旧
                                        • 最多赞同


                                        • 登录

                                        • 没有帐号? 注册

                                        • 登录或注册以进行搜索。
                                        • 第一个帖子
                                          最后一个帖子
                                        0
                                        • 版块
                                        • 最新
                                        • 标签
                                        • 热门
                                        • 用户
                                        • 群组