【折腾记录】Hermes模型横评：Qwen 3.6 27B (5090&M4 Max MLX) vs DeepSeek云 vs Claude Code代理

Reply to 【折腾记录】Hermes模型横评：Qwen 3.6 27B (5090&M4 Max MLX) vs DeepSeek云 vs Claude Code代理 on Tue, 26 May 2026 14:51:22 GMT

williamlouis — Tue, 26 May 2026 14:51:22 GMT

关于在线大厂。我也保持悲观态度。
它们想什么时候收割就什么时候。做好准备就好。
就成本估算 1 token 的照价。DS 也不会是我们的救星。以后说不定比qwen 贵都是可能的。
在线最值得探讨的只有它的库。

Reply to 【折腾记录】Hermes模型横评：Qwen 3.6 27B (5090&M4 Max MLX) vs DeepSeek云 vs Claude Code代理 on Tue, 26 May 2026 13:46:47 GMT

kop wang — Tue, 26 May 2026 13:46:47 GMT

@菠菜多现阶段确实符合你的体感，从llm的质价比来看，deepseek的v4系列是必然的王者。

qwen系列的api价格太贵。

Reply to 【折腾记录】Hermes模型横评：Qwen 3.6 27B (5090&M4 Max MLX) vs DeepSeek云 vs Claude Code代理 on Tue, 26 May 2026 11:19:04 GMT

菠菜多 — Tue, 26 May 2026 11:19:04 GMT

@kop-wang 谢谢大佬。我之前用过Qwen 3.7 Max，结果用一下，结果发现跟Deepseek V4 Pro区别不大。然后的话，费用还高得很。我充了10块钱，一个小事都没办完，就烧没了。所以现在还是又退缩回Deepseek V4 Pro了。

Reply to 【折腾记录】Hermes模型横评：Qwen 3.6 27B (5090&M4 Max MLX) vs DeepSeek云 vs Claude Code代理 on Tue, 26 May 2026 07:59:25 GMT

kop wang — Tue, 26 May 2026 07:59:25 GMT

@pilipala cc-switch就可以，如果使用的是Claude Code CLI，且你的运行环境支持Anthipala cc-switch就可以，如果使用的是Claude Code CLI，且你的运行环境支持Anthropic API的话，都不需要代理。

Reply to 【折腾记录】Hermes模型横评：Qwen 3.6 27B (5090&M4 Max MLX) vs DeepSeek云 vs Claude Code代理 on Tue, 26 May 2026 07:27:32 GMT

pilipala — Tue, 26 May 2026 07:27:32 GMT

@mojo-claw Claude Code代理楼主可以分享下吗

Reply to 【折腾记录】Hermes模型横评：Qwen 3.6 27B (5090&M4 Max MLX) vs DeepSeek云 vs Claude Code代理 on Tue, 26 May 2026 03:16:43 GMT

kop wang — Tue, 26 May 2026 03:16:43 GMT

@菠菜多从总体的benchmark来看，deepseek-v4-pro在整个智力层面上没有超过deepseek-v4-flash很多。但是：
1、你是用于财务工作，有很多专业知识。
2、Claude Code是一个Coding Agent，未见得有充足的财务Tools。
3、你的场合是一个低频场景，对于API价格应该不是特别敏感。

所以基于此，我个人的建议是继续采用deepseek-v4-pro，毕竟他的参数总量和激活参数远大于Flash。pro是1.6T参数，单次调用激活49B，Flash是284B参数，单次只激活13B。

毕竟总参数决定了模型的知识总量。在不使用专业Agent的前提之下，知识量对于推理准确度有非常大的正向作用。

Reply to 【折腾记录】Hermes模型横评：Qwen 3.6 27B (5090&M4 Max MLX) vs DeepSeek云 vs Claude Code代理 on Tue, 26 May 2026 00:00:50 GMT

菠菜多 — Tue, 26 May 2026 00:00:50 GMT

大神，我主要是用Claude Code跑财务工作，比如说计算整个公司的全年平均工资啊，计算客户的回款周期、账款周期，计算库存压力啊，这些。我现在是Claude Code接Deepseek、V4Pro，因为我是听很多AI说用V4 Pro要好一些。但是我看你这个评测，说是Deepseek、V4Flash还要更好，又快又好又便宜。我作为一个小白，现在都不知道怎么办了，请大神指点。

Reply to 【折腾记录】Hermes模型横评：Qwen 3.6 27B (5090&M4 Max MLX) vs DeepSeek云 vs Claude Code代理 on Mon, 25 May 2026 16:07:17 GMT

williamlouis — Mon, 25 May 2026 16:07:17 GMT

Apple M4 Max 如果买了就是为了跑ai 。再买同类产品建议来论坛看看再出手。
这个机器在我这的卖点是低功耗。低噪音。同时是一个很好的服务器端。
对于用作算力。我也暂，保持谨慎悲观态度！

Reply to 【折腾记录】Hermes模型横评：Qwen 3.6 27B (5090&M4 Max MLX) vs DeepSeek云 vs Claude Code代理 on Mon, 25 May 2026 01:52:17 GMT

[[global:former-user]] — Mon, 25 May 2026 01:52:17 GMT

感谢楼主的详尽测试。
目前来讲，个人理解Mac的价值也就在于通过更大的统一内存，来用更高的量化参数，乃至换更大的模型换取更高的质量，这一个思路。

还有就是mac的并发性能并不是特别低，据论坛大神的数据，M5 Max 128GB 双线程并发性能1.91x，https://lcz.me/topic/91/请教大家m5-max-128g-macbook-pro上的omlx如何优化/14

btw，其实现在的AI应用普遍跑在Agent工具这种场景，Agent工具已经给模型足够的上下文和对应的参考信息，对于模型本身的知识量大小的要求已经大幅度降低了。所以“Mac能跑大Moe模型”这个点的意义，我个人目前是持谨慎悲观态度。

Reply to 【折腾记录】Hermes模型横评：Qwen 3.6 27B (5090&M4 Max MLX) vs DeepSeek云 vs Claude Code代理 on Sun, 24 May 2026 13:37:57 GMT

AresROC — Sun, 24 May 2026 13:37:57 GMT

oMLX Caching 可以提高prefill效率。
Mac 可以考虑量化Q5 VS Q4 减少量化损失

Reply to 【折腾记录】Hermes模型横评：Qwen 3.6 27B (5090&M4 Max MLX) vs DeepSeek云 vs Claude Code代理 on Sun, 24 May 2026 11:23:26 GMT

terry — Sun, 24 May 2026 11:23:26 GMT

@johnnybegood Dflash是未来，它比MTP相比效率会更高，Pflash也是，但是现在说实话都不成熟。MTP友好的模型权重以及框架现在多，方案成熟。

Reply to 【折腾记录】Hermes模型横评：Qwen 3.6 27B (5090&M4 Max MLX) vs DeepSeek云 vs Claude Code代理 on Sun, 24 May 2026 06:11:32 GMT

johnnybegood — Sun, 24 May 2026 06:11:32 GMT

@mojo-claw 三个字总结：用 DS flash.

Reply to 【折腾记录】Hermes模型横评：Qwen 3.6 27B (5090&M4 Max MLX) vs DeepSeek云 vs Claude Code代理 on Sun, 24 May 2026 05:56:20 GMT

mojo claw — Sun, 24 May 2026 05:56:20 GMT

感谢xiaote的肯定：）
上下文翻倍我觉得不会帮助日常对话，hermes 128k感觉基本上都覆盖了，加到256k会比较适合复杂任务，交给ds v4 pro或者claude去执行就好了.

换到metal 是不是还是会有prefill很慢的问题？推理的话差不多22tk/秒，那就意味着metal能跑到30-40. 对比下5090差不多60-70tk.

Reply to 【折腾记录】Hermes模型横评：Qwen 3.6 27B (5090&M4 Max MLX) vs DeepSeek云 vs Claude Code代理 on Sun, 24 May 2026 04:04:40 GMT

Xiaote — Sun, 24 May 2026 04:04:40 GMT

@mojo-claw 很详尽的横评，头一次发技术贴就这个质量，厉害。

几点补充：

MLX 在 M4 Max 上垫底其实不意外——LM Studio 的 MLX 后端目前对大模型推理的优化还比较初级，没有充分利用 M4 的 Neural Engine。如果你在 Mac 上想跑本地推理，建议试试 llama.cpp 的 Metal 后端（直接编译带 -DGGML_METAL=ON），推理速度比 MLX 通常能快 30-50%，而且显存利用率更高。

你那个 model naming 的坑我也踩过——provider 检测到 "claude" 就自动切到 Anthropic Messages API。我的做法是 provider 手动指定为 openai-compatible，然后把 base_url 指向代理地址，model 名字随便起都不会被自动归类。

还有个建议：既然 5090 本地推理速度已经很能打了（简单问答 2.7s，比 DS Flash 还快），可以试试把上下文拉到 256K 甚至 512K 做对比——5090 的 32GB 显存跑 Q4_K_M 27B 开到 256K 上下文应该还有余量。MLX 那边的 36GB 统一内存理论上能开到更大上下文，看看 long-context 场景下这几套方案差距会不会拉开。