为了证明M4 Max真的不行，自己写了案例测试了几个模型

terry

@566656661 徽章要显示，这是论坛用户的评价锁定的，不要不带啊，那声望系统就没意义了

tomcatzh

但是呢，有一点稍稍安慰的是，在这个过程中，找到了一个宝藏模型，Libraxis 35B-A3B VMLX MXFP4 (oMLX)

他的hugging face原帖可以看这里：
https://huggingface.co/LibraxisAI/Huihui-Qwen3.6-35B-A3B-Claude-4.7-Opus-abliterated-vmlx-mxfp4

首先这个模型已经abliterated，你懂的，前两天老特的视频也说了，本地模型不拒绝也是创作过程中一个重要的需求。

其次呢，他是一个35B-A3B的模型，本来他的智能应该是比较弱的，但是运行速度是比较好的（尤其在我的m4 max上）
大家可以看我上贴第一张图，大部分的35B-A3B都在下面。

但是呢，这个模型的发布机构使用opus 4.7给他整流校准过，效果极好，至少在我的测试集里，完全达到了27B的性能。当然仅对我的测试集负责，偏向tool call和编程，可能也是因为蒸馏的opus 4.7也是偏向这些方向的。

看看图中的智能表现，接近27B的水平：

但他的性能，在我的机器上总算能用了

结合老特的教程，只要harness环境够好，区分好上下文记忆，这样tool call准确的模型是可以干活的。

我现在在我的机器上配给了一个小的hermes，专门处理一些prompts润色啊等内容，他也能比较智能的自己总结经验，生成skill，目前感觉良好。关键是，终于找到一个我的机器能跑，智力还算正常的模型了。

推荐各位兄弟使用，尤其是小硬件的，可以试试看。有啥坑也欢迎过来踩我。

tomcatzh

@Xiaote 你也没真的去star啊，你爹没给你这个权限吧

566656661

@terry

好吧

這東東讓人不好意思的

terry

566656661 荣誉是别人给的，有什么不好意思的，声望都是别人一个一个点赞出来的。

williamlouis

M4 群众：盖版 32G 改版 24G 丐版 16G 围观下。大家偷乐，你也不比我们强多少哈。哈哈哈哈哈哈。

tomcatzh

@williamlouis 说:

M4 群众：盖版 32G 改版 24G 丐版 16G 围观下。大家偷乐，你也不比我们强多少哈。哈哈哈哈哈哈。

的确啊，但是我找到那个模型，可能丐版的兄弟们真的可以试一下，32GB应该轻松跑

williamlouis

我局域网让 7900XTX 做本地算力了。

tomcatzh

@williamlouis 说:

我局域网让 7900XTX 做本地算力了。

在2026年的这一刻的确是最优解

williamlouis

嗯。但是暂时闲置折腾状态。没什么项目给它做。我还是主力用在线 api 跑。

566656661

@tomcatzh

對了, 個人推薦是盡量避免Claude/GPT/Gemini的蒸餾模型, 因為成效很迷

不是說蒸餾這個技術沒用, 是在指家用端的模型思考能力有限發揮不出來優勢

而且更有可能會矯枉過正導致原本的模型CoT爆掉, 思考能力反而更差

~~我其實更傾向相信在訓練途中Qwen團隊早已經加入有關這些模型的CoT訓練資料, Gemma 4反而可能沒有~~

tomcatzh

@566656661 说:

@tomcatzh

對了, 個人推薦是盡量避免Claude/GPT/Gemini的蒸餾模型, 因為成效很迷

不是說蒸餾這個技術沒用, 是在指家用端的模型思考能力有限發揮不出來優勢

而且更有可能會矯枉過正導致原本的模型CoT爆掉, 思考能力反而更差

~~我其實更傾向相信在訓練途中Qwen團隊早已經加入有關這些模型的CoT訓練資料, Gemma 4反而可能沒有~~

是的，的确，大部分的蒸馏模型都一般。

我也是将信将疑的用。但是hugging face很多发布都喜欢越狱同时加蒸馏。

当时也是看着热度比较高的这个mxfp4模型，本来纯打算测一把速度的。但没想到智能让我有惊喜。（至少在我的测试集里面有惊喜）

Tony Wang

@tomcatzh

你这个27b decode的速度惊人啊, 可惜就是prefill 太慢.

目前的Mac 跑 35A3 或者 26A4, 应该是最好的选择了. 27b普遍都跑不动.

M5 max 的实测数据, 我们论坛还没有, 我感觉 M5 max 可能将将可用.

tomcatzh

@Tony-Wang 我还有一个想测的，是DGX Spark，好像可以闲鱼租

tomcatzh

@Tony-Wang decode速度高，毕竟是满血的m4 max

Tony Wang

@tomcatzh

DGX 也不便宜, 跑27b肯定比Mac能打, 但是生图之类的肯定也不行. 估计跑 70b的效果也不太好.

如果只做AI算力机, 应该比Mac的性价比高.

566656661

@Tony-Wang

圖的話基本上就5070等級吧, 不過功耗跟頻率限制了, 應該會更差

soop ladios

剛跑了qwen 3.6 27B Q8 單台DGX spark的測試供參考, 手邊沒有Q4的模型可以跑.

圖片影片的話.. 論壇上有發一篇了, 可以看看

Tony Wang

@soop-ladios

速度还不错, 长上下文 prefill 还是有点儿慢. 换成Q4应该完全可用.

抡锤者

为了证明M4 Max真的不行，自己写了案例测试了几个模型