【折腾记录】Hermes模型横评：Qwen 3.6 27B (5090&M4 Max MLX) vs DeepSeek云 vs Claude Code代理

AresROC

oMLX Caching 可以提高prefill效率。
Mac 可以考虑量化Q5 VS Q4 减少量化损失

? 离线

感谢楼主的详尽测试。
目前来讲，个人理解Mac的价值也就在于通过更大的统一内存，来用更高的量化参数，乃至换更大的模型换取更高的质量，这一个思路。

还有就是mac的并发性能并不是特别低，据论坛大神的数据，M5 Max 128GB 双线程并发性能1.91x，https://lcz.me/topic/91/请教大家m5-max-128g-macbook-pro上的omlx如何优化/14

btw，其实现在的AI应用普遍跑在Agent工具这种场景，Agent工具已经给模型足够的上下文和对应的参考信息，对于模型本身的知识量大小的要求已经大幅度降低了。所以“Mac能跑大Moe模型”这个点的意义，我个人目前是持谨慎悲观态度。

williamlouis

Apple M4 Max 如果买了就是为了跑ai 。再买同类产品建议来论坛看看再出手。
这个机器在我这的卖点是低功耗。低噪音。同时是一个很好的服务器端。
对于用作算力。我也暂，保持谨慎悲观态度！

菠菜多

大神，我主要是用Claude Code跑财务工作，比如说计算整个公司的全年平均工资啊，计算客户的回款周期、账款周期，计算库存压力啊，这些。我现在是Claude Code接Deepseek、V4Pro，因为我是听很多AI说用V4 Pro要好一些。但是我看你这个评测，说是Deepseek、V4Flash还要更好，又快又好又便宜。我作为一个小白，现在都不知道怎么办了，请大神指点。

kop wang

@菠菜多从总体的benchmark来看，deepseek-v4-pro在整个智力层面上没有超过deepseek-v4-flash很多。但是：
1、你是用于财务工作，有很多专业知识。
2、Claude Code是一个Coding Agent，未见得有充足的财务Tools。
3、你的场合是一个低频场景，对于API价格应该不是特别敏感。

所以基于此，我个人的建议是继续采用deepseek-v4-pro，毕竟他的参数总量和激活参数远大于Flash。pro是1.6T参数，单次调用激活49B，Flash是284B参数，单次只激活13B。

毕竟总参数决定了模型的知识总量。在不使用专业Agent的前提之下，知识量对于推理准确度有非常大的正向作用。

pilipala

@mojo-claw Claude Code代理楼主可以分享下吗

kop wang

@pilipala cc-switch就可以，如果使用的是Claude Code CLI，且你的运行环境支持Anthipala cc-switch就可以，如果使用的是Claude Code CLI，且你的运行环境支持Anthropic API的话，都不需要代理。

菠菜多

@kop-wang 谢谢大佬。我之前用过Qwen 3.7 Max，结果用一下，结果发现跟Deepseek V4 Pro区别不大。然后的话，费用还高得很。我充了10块钱，一个小事都没办完，就烧没了。所以现在还是又退缩回Deepseek V4 Pro了。

kop wang

@菠菜多现阶段确实符合你的体感，从llm的质价比来看，deepseek的v4系列是必然的王者。

qwen系列的api价格太贵。

williamlouis

关于在线大厂。我也保持悲观态度。
它们想什么时候收割就什么时候。做好准备就好。
就成本估算 1 token 的照价。DS 也不会是我们的救星。以后说不定比qwen 贵都是可能的。
在线最值得探讨的只有它的库。

测试场景	DS Flash	DS Pro	Qwen 5090	Qwen MLX	Opus 代理	Sonnet 代理
简单问答	4.0s	5.1s	2.7s	26.1s	6.0s	4.5s
中等代码	29.2s	20.4s	13.4s	31.3s	15.5s	10.4s
找BUG	13.2s	21.0s	9.0s	37.9s	19.6s	12.3s
逻辑推理	9.1s	15.3s	10.1s	32.0s	10.8s	16.3s
复杂SQL	36.4s	31.3s	26.5s	49.2s	20.4s	32.4s

模型	时间	回答
DS Flash	4.0s	Binary search has a time complexity of O(log n), repeatedly halving the search space with each comparison.
DS Pro	5.1s	O(log n) — each step halves the search space.
Qwen 5090	2.7s	O(log n)
Qwen MLX	26.1s	O(log n) — each step halves the search space, so it takes logarithmic time relative to the input size.
Opus	6.0s	O(log n) — each comparison halves the search space.
Sonnet	4.5s	O(log n) — each step halves the search space.

模型	时间	字符数	风格
DS Flash	29.2s	643c	写了文件，没贴代码，讲解为主
DS Pro	20.4s	436c	写了文件，有on_retry回调
Qwen 5090	13.4s	3160c	完整代码+示例+edge case
Qwen MLX	31.3s	2602c	完整代码，结构跟5090几乎一样
Opus	15.5s	1122c	15行核心代码，ParamSpec完美推导
Sonnet	10.4s	1118c	跟Opus同思路，TypeVar bound

模型	时间	诊断
DS Flash	13.2s	发现文件已被修复（上下文污染），额外讨论了稳定性
DS Pro	21.0s	正确，解释了slice安全性
Qwen 5090	9.0s	最快，简洁直接
Qwen MLX	37.9s	正确，总结很清晰
Opus	19.6s	完整修复代码+解释
Sonnet	12.3s	附带了具体的输入输出例子

模型	时间	风格
DS Flash	9.1s	表格推演+通用公式+陷阱提醒
DS Pro	15.3s	逐步推演+公式 (30-3)/1+1=28
Qwen 5090	10.1s	Step-by-step + 陷阱分析
Qwen MLX	32.0s	同样的思路，32秒属实慢了
Opus	10.8s	5行搞定，极简主义
Sonnet	16.3s	数学证明：(n-1)+3≥30 → n≥28

抡锤者

【折腾记录】Hermes模型横评：Qwen 3.6 27B (5090&M4 Max MLX) vs DeepSeek云 vs Claude Code代理

硬件配置

速度总览

第1题：简单问答

第2题：中等代码 — 重试装饰器

第3题：找BUG

第4题：逻辑推理 — 蜗牛爬井

第5题：复杂SQL

5090 vs M4 Max MLX：同模型对决

Prefill性能深度测试

综合评价

技术补充：

Claude Code 代理

系统提示词消毒

模型名的坑

模型	时间	字符数	亮点
DS Flash	36.4s	2741c	LEFT JOIN pivot思路，附设计决策表
DS Pro	31.3s	2750c	RANK()处理并列，附跨DB移植说明
Qwen 5090	26.5s	4107c	硬编码日期，偏SQLite语法
Qwen MLX	49.2s	4837c	标准PostgreSQL，CROSS JOIN传参
Opus	20.4s	2342c	最快，额外算了avg_mom均值
Sonnet	32.4s	2910c	RANK()处理tie，4个key decisions

Prompt tokens	5090 CUDA	M4 Max MLX	速度比
119	1.1s	3.3s	3.1x
1,019	1.1s	7.2s	6.4x
5,019	2.0s	22.6s	11.6x
10,019	2.5s	28.7s	11.7x
20,019	4.1s	63.3s	15.3x