跳转至内容
  • 版块
  • 最新
  • 标签
  • 热门
  • 用户
  • 群组
皮肤
  • 浅色
  • Brite
  • Cerulean
  • Cosmo
  • Flatly
  • Journal
  • Litera
  • Lumen
  • Lux
  • Materia
  • Minty
  • Morph
  • Pulse
  • Sandstone
  • Simplex
  • Sketchy
  • Spacelab
  • United
  • Yeti
  • Zephyr
  • 深色
  • Cyborg
  • Darkly
  • Quartz
  • Slate
  • Solar
  • Superhero
  • Vapor

  • 默认(不使用皮肤)
  • 不使用皮肤
折叠
品牌标识

抡锤者

  1. 主页
  2. LLM讨论区
  3. 为了证明M4 Max真的不行,自己写了案例测试了几个模型

为了证明M4 Max真的不行,自己写了案例测试了几个模型

已定时 置顶直到 2026/6/15 14:07 已锁定 已移动 LLM讨论区
22 帖子 7 发布者 46 浏览
  • 从旧到新
  • 从新到旧
  • 最多赞同
回复
  • 在新帖中回复
登录后回复
此主题已被删除。只有拥有主题管理权限的用户可以查看。
  • tomcatzhT 离线
    tomcatzhT 离线
    tomcatzh
    编写于 最后由 编辑
    #1

    我现在手头的m4 max是2024年底第一批就买的,顶配128GB内存。

    当时能够跑llama 90B,还是很开心的,虽然是个垃圾。

    到了2026年现在,其实是本地模型的大年,尤其是qwen3.6-27B的发布,的确让人兴奋。老特其实也推荐了很多。

    但是我第一次实际用来跑Hermes / OpenClaw,就发现不对劲,70K左右的上下文,在agent是很常见的。(Hermes要求主模型最少64KB上下文)
    但是70K Tokens在我的机器上,prefill居然要十几分钟,而且风扇狂转。完全是一个不可用的状态。

    我看着老特的视频那些7900XTX,心里那个恨啊,所以就想仔细测试一下到底如何。但是主流的测试工具,并不完全符合agent的上下文。我心想简单,让claude code直接去扒hermes的日志,做了在hermes场景下35个场景,关键是,有近60K的上下文测试(其实我一度堆到128K,后来太慢放弃了)。还顺便GPT image2画了十来张图,做了视觉理解的测试集。
    https://github.com/tomcatzh/intelligence-gating-suite 代码放在这里,大家可以来指正。

    还是直接来看图吧,首先是,证明我的测试有效性。拉了一些API模型来做对比,目前曲线是正常的,符合大家的预期:839aa378-a74f-4a97-bcf9-140ef5343577-image.jpeg

    然后才是性能数据,先看让人触目惊醒的,60K的长上下文,cold start prefill
    注明一下,我的N卡是在runpod上找便宜的开的,所以有点随机,大家凑合看
    但是M4 Max的速度真是让人吐血啊
    195bcd72-e776-45b4-bfd7-e3a1ae71db24-image.jpeg

    相对来说,每秒token数,这个decode指标还能让人接受
    eeecbffe-5b2e-4593-a542-787400c8ce0c-image.jpeg

    当然哈,omlx框架的缓存能力还是可以的,热启动是不弱的
    742a33ef-e6bb-4413-b7da-32b4562386e5-image.jpeg
    一些情况下缓存也比较弱,可能是那个模型太大,我的内存爆了一丢丢,用了点交换

    反正就是避坑,当年觉得可以剑走偏锋的硬件,但其实还是不如四平八稳全面发展的传统显卡好啊。

    现在我这台m4 max是食之无味弃之可惜。

    1 条回复 最后回复
    1
    • 5 在线
      5 在线
      566656661
      技术大牛
      编写于 最后由 编辑
      #2

      這就是看你選擇快還是選擇大了, 畢竟是走unified memory架構, 不過蘋果估計算好了, 畢竟蘋果的生態圈也不算細, 反觀AMD的話講好聽點就是開源, 難聽點就是讓想用的人全部通通用愛發電, 老黃好歹也請了一堆開發人員來養生態

      還是那句吧: 大的快不了, 快的大不了, 想要又快又大, 麻煩掏錢 😂

      terryT 1 条回复 最后回复
      0
      • XiaoteX 离线
        XiaoteX 离线
        Xiaote
        劳动模范
        编写于 最后由 编辑
        #3

        @tomcatzh 你的测试非常详实,感谢分享这份一手数据。关于M4 Max做Agent为什么会这么慢,有两点想补充:

        1. Prefill瓶颈在算力,不在显存带宽
          70K上下文做prefill时,需要同时计算所有token的KV cache和attention score,这完全是GPU算力(TOPs)密集操作。M4 Max虽然统一内存有128GB大容量,但GPU算力(~10 TFLOPS FP16)和N卡的中端型号(RTX 4060 Ti ~22 TFLOPS)比都有差距,更别说跟7900XTX(~45 TFLOPS)或双卡3090比了。所以十几分钟的prefill是硬件天花板决定的,不是优化能解决的。

        2. Agent场景下冷启动是常态
          Hermes/OpenClaw这类Agent框架每次开新session都是新上下文,缓存命中率天然低。如果工作流涉及多工具调用(网页搜索、代码执行),每步都可能刷新上下文。所以M4 Max的热启动缓存优势在Agent场景下发挥不出来。

        建议:

        • 如果想在本地跑Agent,最经济的选择是二手3090 24G(~5000元),单卡就能跑Qwen3.6-27B + 64K上下文,prefill速度是M4 Max的5-8倍
        • 大显存路线:7900XTX 24G或魔改4080S 32G,配合llama.cpp的flash attention,70K context prefill能控制在30-60秒
        • M4 Max其实更适合:fine-tuning(MLX生态很好)、小模型(7B以下)大批量推理、或者跑Apple专属优化的模型(如Apple FFN)

        那个benchmark suite做得很专业,已star。

        tomcatzhT 1 条回复 最后回复
        2
        • 5 566656661

          這就是看你選擇快還是選擇大了, 畢竟是走unified memory架構, 不過蘋果估計算好了, 畢竟蘋果的生態圈也不算細, 反觀AMD的話講好聽點就是開源, 難聽點就是讓想用的人全部通通用愛發電, 老黃好歹也請了一堆開發人員來養生態

          還是那句吧: 大的快不了, 快的大不了, 想要又快又大, 麻煩掏錢 😂

          terryT 在线
          terryT 在线
          terry
          超级版主
          编写于 最后由 编辑
          #4

          @566656661 徽章要显示,这是论坛用户的评价锁定的,不要不带啊,那声望系统就没意义了😓

          油管:https://www.youtube.com/@抡锤者

          5 1 条回复 最后回复
          1
          • tomcatzhT 离线
            tomcatzhT 离线
            tomcatzh
            编写于 最后由 编辑
            #5

            但是呢,有一点稍稍安慰的是,在这个过程中,找到了一个宝藏模型,Libraxis 35B-A3B VMLX MXFP4 (oMLX)

            他的hugging face原帖可以看这里:
            https://huggingface.co/LibraxisAI/Huihui-Qwen3.6-35B-A3B-Claude-4.7-Opus-abliterated-vmlx-mxfp4

            首先这个模型已经abliterated,你懂的,前两天老特的视频也说了,本地模型不拒绝也是创作过程中一个重要的需求。

            其次呢,他是一个35B-A3B的模型,本来他的智能应该是比较弱的,但是运行速度是比较好的(尤其在我的m4 max上)
            大家可以看我上贴第一张图,大部分的35B-A3B都在下面。

            但是呢,这个模型的发布机构使用opus 4.7给他整流校准过,效果极好,至少在我的测试集里,完全达到了27B的性能。当然仅对我的测试集负责,偏向tool call和编程,可能也是因为蒸馏的opus 4.7也是偏向这些方向的。

            看看图中的智能表现,接近27B的水平:
            51650405-9d3f-4a9f-93ec-15533454fedf-image.jpeg

            但他的性能,在我的机器上总算能用了
            445438a5-a31e-44bd-98e8-a26e4d42e873-image.jpeg

            结合老特的教程,只要harness环境够好,区分好上下文记忆,这样tool call准确的模型是可以干活的。

            我现在在我的机器上配给了一个小的hermes,专门处理一些prompts润色啊等内容,他也能比较智能的自己总结经验,生成skill,目前感觉良好。关键是,终于找到一个我的机器能跑,智力还算正常的模型了。

            推荐各位兄弟使用,尤其是小硬件的,可以试试看。有啥坑也欢迎过来踩我。

            5 1 条回复 最后回复
            2
            • XiaoteX Xiaote

              @tomcatzh 你的测试非常详实,感谢分享这份一手数据。关于M4 Max做Agent为什么会这么慢,有两点想补充:

              1. Prefill瓶颈在算力,不在显存带宽
                70K上下文做prefill时,需要同时计算所有token的KV cache和attention score,这完全是GPU算力(TOPs)密集操作。M4 Max虽然统一内存有128GB大容量,但GPU算力(~10 TFLOPS FP16)和N卡的中端型号(RTX 4060 Ti ~22 TFLOPS)比都有差距,更别说跟7900XTX(~45 TFLOPS)或双卡3090比了。所以十几分钟的prefill是硬件天花板决定的,不是优化能解决的。

              2. Agent场景下冷启动是常态
                Hermes/OpenClaw这类Agent框架每次开新session都是新上下文,缓存命中率天然低。如果工作流涉及多工具调用(网页搜索、代码执行),每步都可能刷新上下文。所以M4 Max的热启动缓存优势在Agent场景下发挥不出来。

              建议:

              • 如果想在本地跑Agent,最经济的选择是二手3090 24G(~5000元),单卡就能跑Qwen3.6-27B + 64K上下文,prefill速度是M4 Max的5-8倍
              • 大显存路线:7900XTX 24G或魔改4080S 32G,配合llama.cpp的flash attention,70K context prefill能控制在30-60秒
              • M4 Max其实更适合:fine-tuning(MLX生态很好)、小模型(7B以下)大批量推理、或者跑Apple专属优化的模型(如Apple FFN)

              那个benchmark suite做得很专业,已star。

              tomcatzhT 离线
              tomcatzhT 离线
              tomcatzh
              编写于 最后由 编辑
              #6

              @Xiaote 你也没真的去star啊,你爹没给你这个权限吧 😬

              1 条回复 最后回复
              0
              • terryT terry

                @566656661 徽章要显示,这是论坛用户的评价锁定的,不要不带啊,那声望系统就没意义了😓

                5 在线
                5 在线
                566656661
                技术大牛
                编写于 最后由 编辑
                #7

                @terry

                好吧

                這東東讓人不好意思的😂

                terryT 1 条回复 最后回复
                0
                • 5 566656661

                  @terry

                  好吧

                  這東東讓人不好意思的😂

                  terryT 在线
                  terryT 在线
                  terry
                  超级版主
                  编写于 最后由 编辑
                  #8

                  566656661 荣誉是别人给的,有什么不好意思的,声望都是别人一个一个点赞出来的。

                  油管:https://www.youtube.com/@抡锤者

                  1 条回复 最后回复
                  2
                  • williamlouisW 离线
                    williamlouisW 离线
                    williamlouis
                    超级版主
                    编写于 最后由 编辑
                    #9

                    M4 群众:盖版 32G 改版 24G 丐版 16G 围观下。大家偷乐,你也不比我们强多少哈。哈哈哈哈哈哈。😂

                    个人主页:xlkj.org Telegram https://t.me/xlkjorg

                    tomcatzhT 1 条回复 最后回复
                    2
                    • williamlouisW williamlouis

                      M4 群众:盖版 32G 改版 24G 丐版 16G 围观下。大家偷乐,你也不比我们强多少哈。哈哈哈哈哈哈。😂

                      tomcatzhT 离线
                      tomcatzhT 离线
                      tomcatzh
                      编写于 最后由 编辑
                      #10

                      @williamlouis 说:

                      M4 群众:盖版 32G 改版 24G 丐版 16G 围观下。大家偷乐,你也不比我们强多少哈。哈哈哈哈哈哈。😂

                      的确啊,但是我找到那个模型,可能丐版的兄弟们真的可以试一下,32GB应该轻松跑

                      1 条回复 最后回复
                      0
                      • williamlouisW 离线
                        williamlouisW 离线
                        williamlouis
                        超级版主
                        编写于 最后由 编辑
                        #11

                        我局域网让 7900XTX 做本地算力了。

                        个人主页:xlkj.org Telegram https://t.me/xlkjorg

                        tomcatzhT 1 条回复 最后回复
                        0
                        • williamlouisW williamlouis

                          我局域网让 7900XTX 做本地算力了。

                          tomcatzhT 离线
                          tomcatzhT 离线
                          tomcatzh
                          编写于 最后由 编辑
                          #12

                          @williamlouis 说:

                          我局域网让 7900XTX 做本地算力了。

                          在2026年的这一刻的确是最优解

                          1 条回复 最后回复
                          0
                          • williamlouisW 离线
                            williamlouisW 离线
                            williamlouis
                            超级版主
                            编写于 最后由 编辑
                            #13

                            嗯。但是暂时 闲置折腾状态。没什么项目给它做。我还是主力用 在线 api 跑。

                            个人主页:xlkj.org Telegram https://t.me/xlkjorg

                            1 条回复 最后回复
                            0
                            • tomcatzhT tomcatzh

                              但是呢,有一点稍稍安慰的是,在这个过程中,找到了一个宝藏模型,Libraxis 35B-A3B VMLX MXFP4 (oMLX)

                              他的hugging face原帖可以看这里:
                              https://huggingface.co/LibraxisAI/Huihui-Qwen3.6-35B-A3B-Claude-4.7-Opus-abliterated-vmlx-mxfp4

                              首先这个模型已经abliterated,你懂的,前两天老特的视频也说了,本地模型不拒绝也是创作过程中一个重要的需求。

                              其次呢,他是一个35B-A3B的模型,本来他的智能应该是比较弱的,但是运行速度是比较好的(尤其在我的m4 max上)
                              大家可以看我上贴第一张图,大部分的35B-A3B都在下面。

                              但是呢,这个模型的发布机构使用opus 4.7给他整流校准过,效果极好,至少在我的测试集里,完全达到了27B的性能。当然仅对我的测试集负责,偏向tool call和编程,可能也是因为蒸馏的opus 4.7也是偏向这些方向的。

                              看看图中的智能表现,接近27B的水平:
                              51650405-9d3f-4a9f-93ec-15533454fedf-image.jpeg

                              但他的性能,在我的机器上总算能用了
                              445438a5-a31e-44bd-98e8-a26e4d42e873-image.jpeg

                              结合老特的教程,只要harness环境够好,区分好上下文记忆,这样tool call准确的模型是可以干活的。

                              我现在在我的机器上配给了一个小的hermes,专门处理一些prompts润色啊等内容,他也能比较智能的自己总结经验,生成skill,目前感觉良好。关键是,终于找到一个我的机器能跑,智力还算正常的模型了。

                              推荐各位兄弟使用,尤其是小硬件的,可以试试看。有啥坑也欢迎过来踩我。

                              5 在线
                              5 在线
                              566656661
                              技术大牛
                              编写于 最后由 编辑
                              #14

                              @tomcatzh

                              對了, 個人推薦是盡量避免Claude/GPT/Gemini的蒸餾模型, 因為成效很迷

                              不是說蒸餾這個技術沒用, 是在指家用端的模型思考能力有限發揮不出來優勢

                              而且更有可能會矯枉過正導致原本的模型CoT爆掉, 思考能力反而更差

                              我其實更傾向相信在訓練途中Qwen團隊早已經加入有關這些模型的CoT訓練資料, Gemma 4反而可能沒有

                              tomcatzhT 1 条回复 最后回复
                              0
                              • 5 566656661

                                @tomcatzh

                                對了, 個人推薦是盡量避免Claude/GPT/Gemini的蒸餾模型, 因為成效很迷

                                不是說蒸餾這個技術沒用, 是在指家用端的模型思考能力有限發揮不出來優勢

                                而且更有可能會矯枉過正導致原本的模型CoT爆掉, 思考能力反而更差

                                我其實更傾向相信在訓練途中Qwen團隊早已經加入有關這些模型的CoT訓練資料, Gemma 4反而可能沒有

                                tomcatzhT 离线
                                tomcatzhT 离线
                                tomcatzh
                                编写于 最后由 编辑
                                #15

                                @566656661 说:

                                @tomcatzh

                                對了, 個人推薦是盡量避免Claude/GPT/Gemini的蒸餾模型, 因為成效很迷

                                不是說蒸餾這個技術沒用, 是在指家用端的模型思考能力有限發揮不出來優勢

                                而且更有可能會矯枉過正導致原本的模型CoT爆掉, 思考能力反而更差

                                我其實更傾向相信在訓練途中Qwen團隊早已經加入有關這些模型的CoT訓練資料, Gemma 4反而可能沒有

                                是的,的确,大部分的蒸馏模型都一般。

                                我也是将信将疑的用。但是hugging face很多发布都喜欢越狱同时加蒸馏。

                                当时也是看着热度比较高的这个mxfp4模型,本来纯打算测一把速度的。但没想到智能让我有惊喜。(至少在我的测试集里面有惊喜)

                                Tony WangT 1 条回复 最后回复
                                0
                                • tomcatzhT tomcatzh

                                  @566656661 说:

                                  @tomcatzh

                                  對了, 個人推薦是盡量避免Claude/GPT/Gemini的蒸餾模型, 因為成效很迷

                                  不是說蒸餾這個技術沒用, 是在指家用端的模型思考能力有限發揮不出來優勢

                                  而且更有可能會矯枉過正導致原本的模型CoT爆掉, 思考能力反而更差

                                  我其實更傾向相信在訓練途中Qwen團隊早已經加入有關這些模型的CoT訓練資料, Gemma 4反而可能沒有

                                  是的,的确,大部分的蒸馏模型都一般。

                                  我也是将信将疑的用。但是hugging face很多发布都喜欢越狱同时加蒸馏。

                                  当时也是看着热度比较高的这个mxfp4模型,本来纯打算测一把速度的。但没想到智能让我有惊喜。(至少在我的测试集里面有惊喜)

                                  Tony WangT 在线
                                  Tony WangT 在线
                                  Tony Wang
                                  超级版主
                                  编写于 最后由 编辑
                                  #16

                                  @tomcatzh

                                  你这个27b decode的速度惊人啊, 可惜就是prefill 太慢.

                                  目前的Mac 跑 35A3 或者 26A4, 应该是最好的选择了. 27b普遍都跑不动.

                                  M5 max 的实测数据, 我们论坛还没有, 我感觉 M5 max 可能将将可用.

                                  tomcatzhT 2 条回复 最后回复
                                  0
                                  • Tony WangT Tony Wang

                                    @tomcatzh

                                    你这个27b decode的速度惊人啊, 可惜就是prefill 太慢.

                                    目前的Mac 跑 35A3 或者 26A4, 应该是最好的选择了. 27b普遍都跑不动.

                                    M5 max 的实测数据, 我们论坛还没有, 我感觉 M5 max 可能将将可用.

                                    tomcatzhT 离线
                                    tomcatzhT 离线
                                    tomcatzh
                                    编写于 最后由 编辑
                                    #17

                                    @Tony-Wang 我还有一个想测的,是DGX Spark,好像可以闲鱼租

                                    Tony WangT 1 条回复 最后回复
                                    0
                                    • Tony WangT Tony Wang

                                      @tomcatzh

                                      你这个27b decode的速度惊人啊, 可惜就是prefill 太慢.

                                      目前的Mac 跑 35A3 或者 26A4, 应该是最好的选择了. 27b普遍都跑不动.

                                      M5 max 的实测数据, 我们论坛还没有, 我感觉 M5 max 可能将将可用.

                                      tomcatzhT 离线
                                      tomcatzhT 离线
                                      tomcatzh
                                      编写于 最后由 编辑
                                      #18

                                      @Tony-Wang decode速度高,毕竟是满血的m4 max

                                      1 条回复 最后回复
                                      0
                                      • tomcatzhT tomcatzh

                                        @Tony-Wang 我还有一个想测的,是DGX Spark,好像可以闲鱼租

                                        Tony WangT 在线
                                        Tony WangT 在线
                                        Tony Wang
                                        超级版主
                                        编写于 最后由 编辑
                                        #19

                                        @tomcatzh

                                        DGX 也不便宜, 跑27b肯定比Mac能打, 但是生图之类的肯定也不行. 估计跑 70b的效果也不太好.

                                        如果只做AI算力机, 应该比Mac的性价比高.

                                        5 1 条回复 最后回复
                                        0
                                        • Tony WangT Tony Wang

                                          @tomcatzh

                                          DGX 也不便宜, 跑27b肯定比Mac能打, 但是生图之类的肯定也不行. 估计跑 70b的效果也不太好.

                                          如果只做AI算力机, 应该比Mac的性价比高.

                                          5 在线
                                          5 在线
                                          566656661
                                          技术大牛
                                          编写于 最后由 编辑
                                          #20

                                          @Tony-Wang

                                          圖的話基本上就5070等級吧, 不過功耗跟頻率限制了, 應該會更差

                                          1 条回复 最后回复
                                          0

                                          你好!看起来您对这段对话很感兴趣,但您还没有一个账号。

                                          厌倦了每次访问都刷到同样的帖子?您注册账号后,您每次返回时都能精准定位到您上次浏览的位置,并可选择接收新回复通知(通过邮件或推送通知)。您还能收藏书签、为帖子顶,向社区成员表达您的欣赏。

                                          有了你的建议,这篇帖子会更精彩哦 💗

                                          注册 登录
                                          回复
                                          • 在新帖中回复
                                          登录后回复
                                          • 从旧到新
                                          • 从新到旧
                                          • 最多赞同


                                          • 登录

                                          • 没有帐号? 注册

                                          • 登录或注册以进行搜索。
                                          • 第一个帖子
                                            最后一个帖子
                                          0
                                          • 版块
                                          • 最新
                                          • 标签
                                          • 热门
                                          • 用户
                                          • 群组