<?xml version="1.0" encoding="UTF-8"?><rss xmlns:dc="http://purl.org/dc/elements/1.1/" xmlns:content="http://purl.org/rss/1.0/modules/content/" xmlns:atom="http://www.w3.org/2005/Atom" version="2.0"><channel><title><![CDATA[【折腾记录】Hermes模型横评：Qwen 3.6 27B (5090&amp;M4 Max MLX) vs DeepSeek云 vs Claude Code代理]]></title><description><![CDATA[<p dir="auto">头一次发技术贴, 请留情.</p>
<p dir="auto">本人最近有幸看到了lcz视频并且也开始试着玩hermes. Deepseek很好用但是我一直都有CC和一个打游戏用的5090. 想试试怎么样跑最好. 现在hermes跑在我m1 mac mini 上. DS真的好用很香, 但是抱着爱折腾的心里决定测试一下, 反正有CC帮忙, 很快就部署完成并且测试了下来. 部分由CC替写.</p>
<h2>硬件配置</h2>
<p dir="auto"><strong>5090 PC</strong></p>
<ul>
<li>GPU：RTX 5090 32GB GDDR7</li>
<li>推理后端：LM Studio CUDA</li>
<li>模型：Qwen 3.6 27B，GGUF Q4_K_M 量化</li>
<li>上下文：128K tokens</li>
</ul>
<p dir="auto"><strong>Mac Studio</strong></p>
<ul>
<li>SoC：Apple M4 Max，36GB 统一内存</li>
<li>推理后端：LM Studio MLX</li>
<li>模型：Qwen 3.6 27B，MLX 4bit 量化</li>
<li>上下文：128K tokens</li>
</ul>
<p dir="auto"><strong>云端</strong></p>
<ul>
<li>DeepSeek V4 Flash / V4 Pro（API）</li>
<li>Claude Opus 4.7 / Sonnet 4.6（通过本地FastAPI代理包装 <code>claude -p</code> CLI 后面会有讲）</li>
</ul>
<p dir="auto"><strong>Hermes</strong></p>
<ul>
<li>Mac mini m1</li>
</ul>
<h2>速度总览</h2>
<p dir="auto">5个不同复杂度的任务，6个模型逐一跑。时间是端到端wall clock。</p>
<table class="table table-bordered table-striped">
<thead>
<tr>
<th>测试场景</th>
<th>DS Flash</th>
<th>DS Pro</th>
<th>Qwen 5090</th>
<th>Qwen MLX</th>
<th>Opus 代理</th>
<th>Sonnet 代理</th>
</tr>
</thead>
<tbody>
<tr>
<td>简单问答</td>
<td>4.0s</td>
<td>5.1s</td>
<td><strong>2.7s</strong></td>
<td>26.1s</td>
<td>6.0s</td>
<td>4.5s</td>
</tr>
<tr>
<td>中等代码</td>
<td>29.2s</td>
<td>20.4s</td>
<td>13.4s</td>
<td>31.3s</td>
<td>15.5s</td>
<td><strong>10.4s</strong></td>
</tr>
<tr>
<td>找BUG</td>
<td>13.2s</td>
<td>21.0s</td>
<td><strong>9.0s</strong></td>
<td>37.9s</td>
<td>19.6s</td>
<td>12.3s</td>
</tr>
<tr>
<td>逻辑推理</td>
<td><strong>9.1s</strong></td>
<td>15.3s</td>
<td>10.1s</td>
<td>32.0s</td>
<td>10.8s</td>
<td>16.3s</td>
</tr>
<tr>
<td>复杂SQL</td>
<td>36.4s</td>
<td>31.3s</td>
<td>26.5s</td>
<td>49.2s</td>
<td><strong>20.4s</strong></td>
<td>32.4s</td>
</tr>
</tbody>
</table>
<p dir="auto">Mac Studio MLX 全场垫底，简单问答都要26秒。后面有详细分析，先看每道题的具体回答。</p>
<h2>第1题：简单问答</h2>
<blockquote>
<p dir="auto">What is the time complexity of binary search? One sentence.</p>
</blockquote>
<table class="table table-bordered table-striped">
<thead>
<tr>
<th>模型</th>
<th>时间</th>
<th>回答</th>
</tr>
</thead>
<tbody>
<tr>
<td>DS Flash</td>
<td>4.0s</td>
<td>Binary search has a time complexity of O(log n), repeatedly halving the search space with each comparison.</td>
</tr>
<tr>
<td>DS Pro</td>
<td>5.1s</td>
<td>O(log n) — each step halves the search space.</td>
</tr>
<tr>
<td>Qwen 5090</td>
<td>2.7s</td>
<td>O(log n)</td>
</tr>
<tr>
<td>Qwen MLX</td>
<td>26.1s</td>
<td>O(log n) — each step halves the search space, so it takes logarithmic time relative to the input size.</td>
</tr>
<tr>
<td>Opus</td>
<td>6.0s</td>
<td>O(log n) — each comparison halves the search space.</td>
</tr>
<tr>
<td>Sonnet</td>
<td>4.5s</td>
<td>O(log n) — each step halves the search space.</td>
</tr>
</tbody>
</table>
<p dir="auto"><strong>正确性</strong>：全员正确，没啥好说的。Qwen 5090 最快最惜字如金，MLX 同一个模型反而写了一句完整的解释——可能是量化差异导致采样路径不同。</p>
<h2>第2题：中等代码 — 重试装饰器</h2>
<blockquote>
<p dir="auto">Write a Python decorator that retries a function up to N times with exponential backoff on exception. Include type hints.</p>
</blockquote>
<table class="table table-bordered table-striped">
<thead>
<tr>
<th>模型</th>
<th>时间</th>
<th>字符数</th>
<th>风格</th>
</tr>
</thead>
<tbody>
<tr>
<td>DS Flash</td>
<td>29.2s</td>
<td>643c</td>
<td>写了文件，没贴代码，讲解为主</td>
</tr>
<tr>
<td>DS Pro</td>
<td>20.4s</td>
<td>436c</td>
<td>写了文件，有on_retry回调</td>
</tr>
<tr>
<td>Qwen 5090</td>
<td>13.4s</td>
<td>3160c</td>
<td>完整代码+示例+edge case</td>
</tr>
<tr>
<td>Qwen MLX</td>
<td>31.3s</td>
<td>2602c</td>
<td>完整代码，结构跟5090几乎一样</td>
</tr>
<tr>
<td>Opus</td>
<td>15.5s</td>
<td>1122c</td>
<td>15行核心代码，ParamSpec完美推导</td>
</tr>
<tr>
<td>Sonnet</td>
<td>10.4s</td>
<td>1118c</td>
<td>跟Opus同思路，TypeVar bound</td>
</tr>
</tbody>
</table>
<p dir="auto"><strong>正确性</strong>：</p>
<ol>
<li><strong>Opus</strong> — 最简洁最正确。15行decorator，<code>ParamSpec</code> + <code>TypeVar</code> 完美保留被装饰函数签名，<code>2**attempt</code> 指数退避，没有一行废话。</li>
<li><strong>Qwen 5090 / MLX</strong> — 最全面。logging、jitter防惊群、<code>functools.wraps</code>、使用示例全有。同一个模型，质量一致。</li>
<li><strong>Sonnet</strong> — 正确但用了 <code>TypeVar bound</code> 代替 <code>ParamSpec</code>，有个 <code>type: ignore</code> 不太干净。</li>
<li><strong>DS Flash / Pro</strong> — 正确但都写文件了不贴代码，agent化太重。</li>
</ol>
<h2>第3题：找BUG</h2>
<blockquote>
<p dir="auto">merge_sorted 函数缺少处理剩余元素的逻辑。</p>
</blockquote>
<table class="table table-bordered table-striped">
<thead>
<tr>
<th>模型</th>
<th>时间</th>
<th>诊断</th>
</tr>
</thead>
<tbody>
<tr>
<td>DS Flash</td>
<td>13.2s</td>
<td><img src="https://lcz.me/assets/plugins/nodebb-plugin-emoji/emoji/android/2705.png?v=d348ca29232" class="not-responsive emoji emoji-android emoji--white_check_mark" style="height:23px;width:auto;vertical-align:middle" title="✅" alt="✅" /> 发现文件已被修复（上下文污染），额外讨论了稳定性</td>
</tr>
<tr>
<td>DS Pro</td>
<td>21.0s</td>
<td><img src="https://lcz.me/assets/plugins/nodebb-plugin-emoji/emoji/android/2705.png?v=d348ca29232" class="not-responsive emoji emoji-android emoji--white_check_mark" style="height:23px;width:auto;vertical-align:middle" title="✅" alt="✅" /> 正确，解释了slice安全性</td>
</tr>
<tr>
<td>Qwen 5090</td>
<td>9.0s</td>
<td><img src="https://lcz.me/assets/plugins/nodebb-plugin-emoji/emoji/android/2705.png?v=d348ca29232" class="not-responsive emoji emoji-android emoji--white_check_mark" style="height:23px;width:auto;vertical-align:middle" title="✅" alt="✅" /> 最快，简洁直接</td>
</tr>
<tr>
<td>Qwen MLX</td>
<td>37.9s</td>
<td><img src="https://lcz.me/assets/plugins/nodebb-plugin-emoji/emoji/android/2705.png?v=d348ca29232" class="not-responsive emoji emoji-android emoji--white_check_mark" style="height:23px;width:auto;vertical-align:middle" title="✅" alt="✅" /> 正确，总结很清晰</td>
</tr>
<tr>
<td>Opus</td>
<td>19.6s</td>
<td><img src="https://lcz.me/assets/plugins/nodebb-plugin-emoji/emoji/android/2705.png?v=d348ca29232" class="not-responsive emoji emoji-android emoji--white_check_mark" style="height:23px;width:auto;vertical-align:middle" title="✅" alt="✅" /> 完整修复代码+解释</td>
</tr>
<tr>
<td>Sonnet</td>
<td>12.3s</td>
<td><img src="https://lcz.me/assets/plugins/nodebb-plugin-emoji/emoji/android/2705.png?v=d348ca29232" class="not-responsive emoji emoji-android emoji--white_check_mark" style="height:23px;width:auto;vertical-align:middle" title="✅" alt="✅" /> 附带了具体的输入输出例子</td>
</tr>
</tbody>
</table>
<p dir="auto"><strong>正确性</strong>：全员正确识别同一个bug（<code>result.extend(a[i:])</code> + <code>result.extend(b[j:])</code>）。Sonnet的具体例子最直观：<code>merge_sorted([1, 3], [2, 4, 5])</code> 返回 <code>[1, 2, 3]</code>，丢了 <code>4, 5</code>。</p>
<h2>第4题：逻辑推理 — 蜗牛爬井</h2>
<blockquote>
<p dir="auto">30英尺深井，白天爬3英尺，晚上滑2英尺，第几天到顶？</p>
</blockquote>
<p dir="auto"><strong>全员回答：第28天</strong> <img src="https://lcz.me/assets/plugins/nodebb-plugin-emoji/emoji/android/2705.png?v=d348ca29232" class="not-responsive emoji emoji-android emoji--white_check_mark" style="height:23px;width:auto;vertical-align:middle" title="✅" alt="✅" /></p>
<table class="table table-bordered table-striped">
<thead>
<tr>
<th>模型</th>
<th>时间</th>
<th>风格</th>
</tr>
</thead>
<tbody>
<tr>
<td>DS Flash</td>
<td>9.1s</td>
<td>表格推演+通用公式+陷阱提醒</td>
</tr>
<tr>
<td>DS Pro</td>
<td>15.3s</td>
<td>逐步推演+公式 (30-3)/1+1=28</td>
</tr>
<tr>
<td>Qwen 5090</td>
<td>10.1s</td>
<td>Step-by-step + 陷阱分析</td>
</tr>
<tr>
<td>Qwen MLX</td>
<td>32.0s</td>
<td>同样的思路，32秒属实慢了</td>
</tr>
<tr>
<td>Opus</td>
<td>10.8s</td>
<td>5行搞定，极简主义</td>
</tr>
<tr>
<td>Sonnet</td>
<td>16.3s</td>
<td>数学证明：(n-1)+3≥30 → n≥28</td>
</tr>
</tbody>
</table>
<p dir="auto"><strong>正确性</strong>：全员正确。经典陷阱是 30÷1=30天，正确答案是前27天净爬27英尺，第28天白天冲刺3英尺直接到顶不用再滑。</p>
<h2>第5题：复杂SQL</h2>
<blockquote>
<p dir="auto">4张表联查，找回头客（2+完成订单）上季度Top 3品类收入+月环比增长率。</p>
</blockquote>
<p dir="auto">这题拉开差距最大：</p>
<table class="table table-bordered table-striped">
<thead>
<tr>
<th>模型</th>
<th>时间</th>
<th>字符数</th>
<th>亮点</th>
</tr>
</thead>
<tbody>
<tr>
<td>DS Flash</td>
<td>36.4s</td>
<td>2741c</td>
<td>LEFT JOIN pivot思路，附设计决策表</td>
</tr>
<tr>
<td>DS Pro</td>
<td>31.3s</td>
<td>2750c</td>
<td>RANK()处理并列，附跨DB移植说明</td>
</tr>
<tr>
<td>Qwen 5090</td>
<td>26.5s</td>
<td>4107c</td>
<td>硬编码日期，偏SQLite语法</td>
</tr>
<tr>
<td>Qwen MLX</td>
<td>49.2s</td>
<td>4837c</td>
<td>标准PostgreSQL，CROSS JOIN传参</td>
</tr>
<tr>
<td>Opus</td>
<td>20.4s</td>
<td>2342c</td>
<td>最快，额外算了avg_mom均值</td>
</tr>
<tr>
<td>Sonnet</td>
<td>32.4s</td>
<td>2910c</td>
<td>RANK()处理tie，4个key decisions</td>
</tr>
</tbody>
</table>
<p dir="auto"><strong>正确性排名</strong>：</p>
<ol>
<li><strong>Opus</strong> — 最快+逻辑正确+额外指标。回头客用全局定义（更合理）。</li>
<li><strong>Sonnet</strong> — 最严谨，用RANK()而非LIMIT处理并列。</li>
<li><strong>Qwen MLX</strong> — 虽然最慢但SQL最标准，WINDOW子句规避LAG重复。</li>
<li><strong>DS Flash</strong> — pivot思路有创意。</li>
<li><strong>DS Pro</strong> — 跨数据库移植说明加分。</li>
<li><strong>Qwen 5090</strong> — 逻辑对但 <code>strftime</code> + 硬编码日期，不够通用。</li>
</ol>
<p dir="auto">有意思的是同一个Qwen模型，5090 GGUF写出了SQLite风格，M4 Max MLX写出了标准PostgreSQL风格——量化方式的微妙差异影响了采样路径。</p>
<h2>5090 vs M4 Max MLX：同模型对决</h2>
<p dir="auto">同一个 Qwen 3.6 27B，不同硬件不同量化：</p>
<table class="table table-bordered table-striped">
<thead>
<tr>
<th>测试</th>
<th>5090 CUDA</th>
<th>M4 Max MLX</th>
<th>速度比</th>
</tr>
</thead>
<tbody>
<tr>
<td>简单问答</td>
<td>2.7s</td>
<td>26.1s</td>
<td>9.7x</td>
</tr>
<tr>
<td>中等代码</td>
<td>13.4s</td>
<td>31.3s</td>
<td>2.3x</td>
</tr>
<tr>
<td>找BUG</td>
<td>9.0s</td>
<td>37.9s</td>
<td>4.2x</td>
</tr>
<tr>
<td>逻辑推理</td>
<td>10.1s</td>
<td>32.0s</td>
<td>3.2x</td>
</tr>
<tr>
<td>复杂SQL</td>
<td>26.5s</td>
<td>49.2s</td>
<td>1.9x</td>
</tr>
</tbody>
</table>
<p dir="auto">简单问答差距9.7倍，复杂SQL只差1.9倍。差距随output长度增加而缩小——说明<strong>瓶颈不在generation而在prefill</strong>。</p>
<h2>Prefill性能深度测试</h2>
<p dir="auto">为了验证，做了一组纯prefill压力测试。固定 <code>max_tokens=50</code>（几乎不生成），逐步增大prompt长度：</p>
<table class="table table-bordered table-striped">
<thead>
<tr>
<th>Prompt tokens</th>
<th>5090 CUDA</th>
<th>M4 Max MLX</th>
<th>速度比</th>
</tr>
</thead>
<tbody>
<tr>
<td>119</td>
<td>1.1s</td>
<td>3.3s</td>
<td>3.1x</td>
</tr>
<tr>
<td>1,019</td>
<td>1.1s</td>
<td>7.2s</td>
<td>6.4x</td>
</tr>
<tr>
<td>5,019</td>
<td>2.0s</td>
<td>22.6s</td>
<td>11.6x</td>
</tr>
<tr>
<td>10,019</td>
<td>2.5s</td>
<td>28.7s</td>
<td>11.7x</td>
</tr>
<tr>
<td>20,019</td>
<td>4.1s</td>
<td>63.3s</td>
<td><strong>15.3x</strong></td>
</tr>
</tbody>
</table>
<p dir="auto">几个关键发现：</p>
<p dir="auto"><strong>5090 的 prefill 几乎是平的。</strong> 从119 tokens到20019 tokens，只从1.1秒涨到4.1秒——200倍的token量，耗时只增加了3倍。CUDA tensor cores的批量矩阵乘法在这里是碾压级的，大batch prefill几乎是计算bound而非memory bound。</p>
<p dir="auto"><strong>M4 Max MLX 是线性增长。</strong> 119 tokens 3.3秒，20019 tokens 63.3秒，基本上每多1000 tokens就多3秒。MLX在Apple Silicon上的prefill实现是memory bandwidth bound的——M4 Max的统一内存带宽大概是546GB/s，看着不低，但跟5090的1.8TB/s GDDR7比差了3倍多，再加上CUDA的tensor core并行度优势，实际prefill吞吐差了10倍+。</p>
<p dir="auto"><strong>这就是为什么Mac Studio跑Hermes这么慢。</strong> Hermes Agent的系统提示词大概有6000-8000 tokens，每次请求Mac Studio光prefill就要20-25秒。5090处理同样的提示词只要2秒。简单问答的26秒里，有20多秒都在prefill，实际generation可能就3-4秒。</p>
<p dir="auto"><strong>结论：agent场景下prefill性能 &gt; generation性能。</strong> 如果你只是跑一个简单的chatbot，prompt短，MLX的generation速度其实还行。但一旦上了agent框架（Hermes、OpenClaw、AutoGPT之类的），系统提示词动辄上万token，prefill就成了致命瓶颈。M4 Max MLX在这个场景下基本不可用，只能当备机。</p>
<h2>综合评价</h2>
<p dir="auto"><strong><img src="https://lcz.me/assets/plugins/nodebb-plugin-emoji/emoji/android/1f3c6.png?v=d348ca29232" class="not-responsive emoji emoji-android emoji--trophy" style="height:23px;width:auto;vertical-align:middle" title="🏆" alt="🏆" /> 主力：DeepSeek V4 Flash</strong></p>
<ul>
<li>太便宜太好用了，没有不用它的理由</li>
<li>稳定在4-30秒区间，几乎没有失误</li>
<li>解释详细风格友好，日常高频使用完全够</li>
<li>5个测试里没翻过车，质量稳定</li>
</ul>
<p dir="auto"><strong><img src="https://lcz.me/assets/plugins/nodebb-plugin-emoji/emoji/android/1f527.png?v=d348ca29232" class="not-responsive emoji emoji-android emoji--wrench" style="height:23px;width:auto;vertical-align:middle" title="🔧" alt="🔧" /> 代码参谋：Claude Code（Opus/Sonnet）</strong></p>
<ul>
<li>不直接当主力模型用，而是通过 Hermes 的 skills 机制调用</li>
<li>所有涉及代码的任务，DS Flash 完成主要工作，Claude 负责参谋和验证</li>
<li>Opus 代码质量碾压（15行decorator vs 别人30+行），复杂SQL最快最准</li>
<li>Sonnet 速度更快（中等代码10.4s全场最快），质量也接近Opus</li>
</ul>
<p dir="auto"><strong><img src="https://lcz.me/assets/plugins/nodebb-plugin-emoji/emoji/android/1f3ae.png?v=d348ca29232" class="not-responsive emoji emoji-android emoji--video_game" style="height:23px;width:auto;vertical-align:middle" title="🎮" alt="🎮" /> 备用：Qwen 5090</strong></p>
<ul>
<li>完全免费零API费用，prefill性能碾压</li>
<li>日常不怎么用——DS Flash 够便宜了没必要折腾本地</li>
<li>真正的用途是留给 ComfyUI 之类的图片/视频生成工作流</li>
<li>5090 的 32GB 显存和 CUDA 算力，跑推理有点浪费，跑 SD/Flux/Wan 才是正经事</li>
</ul>
<p dir="auto"><strong><img src="https://lcz.me/assets/plugins/nodebb-plugin-emoji/emoji/android/1f610.png?v=d348ca29232" class="not-responsive emoji emoji-android emoji--neutral_face" style="height:23px;width:auto;vertical-align:middle" title="😐" alt="😐" /> DS Pro：没有存在感</strong></p>
<ul>
<li>没有一项测试比Flash快</li>
<li>质量跟Flash差不多，有时还不如</li>
<li>留在降级链里当最后的兜底，平时不会主动切过去</li>
</ul>
<p dir="auto"><strong><img src="https://lcz.me/assets/plugins/nodebb-plugin-emoji/emoji/android/1f44b.png?v=d348ca29232" class="not-responsive emoji emoji-android emoji--wave" style="height:23px;width:auto;vertical-align:middle" title="👋" alt="👋" /> M4 Max MLX：准备退了</strong></p>
<ul>
<li>质量跟5090一样（同模型），但速度慢2-10倍</li>
<li>prefill是致命瓶颈——Hermes系统提示词6000+ tokens，每次请求光prefill就要20-25秒</li>
<li>M4 Max 36GB 跑 27B MLX 4bit，能跑但体验太差</li>
<li>36GB统一内存也不够上更大的模型，上不去下不来</li>
<li>结论：卖了吧。这个价位不如加钱上 M4 Ultra 或者直接用云端API</li>
</ul>
<h2>技术补充：</h2>
<h3>Claude Code 代理</h3>
<p dir="auto">Claude Code 是个CLI工具不是API，没法直接给Hermes当provider用。所以写了个FastAPI服务把 <code>claude -p</code> 命令包装成 OpenAI 兼容的 <code>/v1/chat/completions</code> 接口，跑在 <code>localhost:8765</code>，注册成 macOS launchd 服务开机自启、挂了自动重启。这也是Claude code 帮我写的 <img src="https://lcz.me/assets/plugins/nodebb-plugin-emoji/emoji/android/1f642.png?v=d348ca29232" class="not-responsive emoji emoji-android emoji--slightly_smiling_face" style="height:23px;width:auto;vertical-align:middle" title=":)" alt="🙂" /></p>
<p dir="auto">支持 <code>--model opus</code> 和 <code>--model sonnet</code> 两个档位，通过请求体里的 <code>model</code> 字段自动路由。</p>
<h3>系统提示词消毒</h3>
<p dir="auto">Hermes发请求的时候会注入自己的系统提示词（身份信息、人设、工具说明等），如果直接透传给Claude会有风险被收取API所以代理层做了一层自动替换：</p>
<pre><code>Hermes Agent         →  AI assistant
NousResearch         →  (删除)
nousresearch.com     →  (删除)
HERMES.md            →  project rules
SOUL.md              →  personality config
delegate_task        →  subtask
hermes-cli tools     →  available tools
kawaii assistant      →  helpful assistant
nya~ desu~           →  (删除)
</code></pre>
<p dir="auto">不是简单的正则删除——会留下 "You are , a helpful assistant by ." 这种残句。所以做成了带上下文的替换，比如 <code>(?:Visit )?nousresearch\.com(?:\s+for\s+more\s+info)?</code> 这种模式，把整个句子片段干净地替换或删除。</p>
<p dir="auto">Claude完全不知道请求来自Hermes。</p>
<h3>模型名的坑</h3>
<p dir="auto">模型名一开始叫 <code>claude-code-cli</code>，结果Hermes的provider自动检测看到名字里有 <code>claude</code>，直接归类为Anthropic provider，然后用Anthropic Messages API格式发请求——代理只支持OpenAI chat completions格式，直接404。</p>
<p dir="auto">改名叫 <code>local-code-agent</code> 就好了。这个坑踩了半小时。</p>
<hr />
<p dir="auto">以上。有问题评论区聊。</p>
]]></description><link>https://lcz.me/topic/286/折腾记录-hermes模型横评-qwen-3.6-27b-5090-m4-max-mlx-vs-deepseek云-vs-claude-code代理</link><generator>RSS for Node</generator><lastBuildDate>Sun, 31 May 2026 05:33:27 GMT</lastBuildDate><atom:link href="https://lcz.me/topic/286.rss" rel="self" type="application/rss+xml"/><pubDate>Sun, 24 May 2026 02:14:42 GMT</pubDate><ttl>60</ttl><item><title><![CDATA[Reply to 【折腾记录】Hermes模型横评：Qwen 3.6 27B (5090&amp;M4 Max MLX) vs DeepSeek云 vs Claude Code代理 on Tue, 26 May 2026 14:51:22 GMT]]></title><description><![CDATA[<p dir="auto">关于 在线大厂。我也保持悲观态度。<br />
它们想什么时候收割就什么时候。做好准备就好。<br />
就成本估算 1 token 的照价。DS 也不会是我们的救星。以后说不定比qwen 贵都是可能的。<br />
在线最值得探讨的只有它的库。</p>
]]></description><link>https://lcz.me/post/3823</link><guid isPermaLink="true">https://lcz.me/post/3823</guid><dc:creator><![CDATA[williamlouis]]></dc:creator><pubDate>Tue, 26 May 2026 14:51:22 GMT</pubDate></item><item><title><![CDATA[Reply to 【折腾记录】Hermes模型横评：Qwen 3.6 27B (5090&amp;M4 Max MLX) vs DeepSeek云 vs Claude Code代理 on Tue, 26 May 2026 13:46:47 GMT]]></title><description><![CDATA[<p dir="auto"><a class="plugin-mentions-user plugin-mentions-a" href="/user/%E8%8F%A0%E8%8F%9C%E5%A4%9A" aria-label="Profile: 菠菜多">@<bdi>菠菜多</bdi></a> 现阶段确实符合你的体感，从llm的质价比来看，deepseek的v4系列是必然的王者。</p>
<p dir="auto">qwen系列的api价格太贵。</p>
]]></description><link>https://lcz.me/post/3816</link><guid isPermaLink="true">https://lcz.me/post/3816</guid><dc:creator><![CDATA[kop wang]]></dc:creator><pubDate>Tue, 26 May 2026 13:46:47 GMT</pubDate></item><item><title><![CDATA[Reply to 【折腾记录】Hermes模型横评：Qwen 3.6 27B (5090&amp;M4 Max MLX) vs DeepSeek云 vs Claude Code代理 on Tue, 26 May 2026 11:19:04 GMT]]></title><description><![CDATA[<p dir="auto"><a class="plugin-mentions-user plugin-mentions-a" href="/user/kop-wang" aria-label="Profile: kop-wang">@<bdi>kop-wang</bdi></a> 谢谢大佬。我之前用过Qwen 3.7 Max，结果用一下，结果发现跟Deepseek V4 Pro区别不大。然后的话，费用还高得很。我充了10块钱，一个小事都没办完，就烧没了。所以现在还是又退缩回Deepseek V4 Pro了。</p>
]]></description><link>https://lcz.me/post/3785</link><guid isPermaLink="true">https://lcz.me/post/3785</guid><dc:creator><![CDATA[菠菜多]]></dc:creator><pubDate>Tue, 26 May 2026 11:19:04 GMT</pubDate></item><item><title><![CDATA[Reply to 【折腾记录】Hermes模型横评：Qwen 3.6 27B (5090&amp;M4 Max MLX) vs DeepSeek云 vs Claude Code代理 on Tue, 26 May 2026 07:59:25 GMT]]></title><description><![CDATA[<p dir="auto"><a class="plugin-mentions-user plugin-mentions-a" href="/user/pilipala" aria-label="Profile: pilipala">@<bdi>pilipala</bdi></a> cc-switch就可以，如果使用的是Claude Code CLI，且你的运行环境支持Anthipala cc-switch就可以，如果使用的是Claude Code CLI，且你的运行环境支持Anthropic API的话，都不需要代理。</p>
]]></description><link>https://lcz.me/post/3753</link><guid isPermaLink="true">https://lcz.me/post/3753</guid><dc:creator><![CDATA[kop wang]]></dc:creator><pubDate>Tue, 26 May 2026 07:59:25 GMT</pubDate></item><item><title><![CDATA[Reply to 【折腾记录】Hermes模型横评：Qwen 3.6 27B (5090&amp;M4 Max MLX) vs DeepSeek云 vs Claude Code代理 on Tue, 26 May 2026 07:27:32 GMT]]></title><description><![CDATA[<p dir="auto"><a class="plugin-mentions-user plugin-mentions-a" href="/user/mojo-claw" aria-label="Profile: mojo-claw">@<bdi>mojo-claw</bdi></a> Claude Code代理楼主可以分享下吗</p>
]]></description><link>https://lcz.me/post/3748</link><guid isPermaLink="true">https://lcz.me/post/3748</guid><dc:creator><![CDATA[pilipala]]></dc:creator><pubDate>Tue, 26 May 2026 07:27:32 GMT</pubDate></item><item><title><![CDATA[Reply to 【折腾记录】Hermes模型横评：Qwen 3.6 27B (5090&amp;M4 Max MLX) vs DeepSeek云 vs Claude Code代理 on Tue, 26 May 2026 03:16:43 GMT]]></title><description><![CDATA[<p dir="auto"><a class="plugin-mentions-user plugin-mentions-a" href="/user/%E8%8F%A0%E8%8F%9C%E5%A4%9A" aria-label="Profile: 菠菜多">@<bdi>菠菜多</bdi></a> 从总体的benchmark来看，deepseek-v4-pro在整个智力层面上没有超过deepseek-v4-flash很多。但是：<br />
1、你是用于财务工作，有很多专业知识。<br />
2、Claude Code是一个Coding Agent，未见得有充足的财务Tools。<br />
3、你的场合是一个低频场景，对于API价格应该不是特别敏感。</p>
<p dir="auto">所以基于此，我个人的建议是继续采用deepseek-v4-pro，毕竟他的参数总量和激活参数远大于Flash。pro是1.6T参数，单次调用激活49B，Flash是284B参数，单次只激活13B。</p>
<p dir="auto">毕竟总参数决定了模型的知识总量。在不使用专业Agent的前提之下，知识量对于推理准确度有非常大的正向作用。</p>
]]></description><link>https://lcz.me/post/3715</link><guid isPermaLink="true">https://lcz.me/post/3715</guid><dc:creator><![CDATA[kop wang]]></dc:creator><pubDate>Tue, 26 May 2026 03:16:43 GMT</pubDate></item><item><title><![CDATA[Reply to 【折腾记录】Hermes模型横评：Qwen 3.6 27B (5090&amp;M4 Max MLX) vs DeepSeek云 vs Claude Code代理 on Tue, 26 May 2026 00:00:50 GMT]]></title><description><![CDATA[<p dir="auto">大神，我主要是用Claude Code跑财务工作，比如说计算整个公司的全年平均工资啊，计算客户的回款周期、账款周期，计算库存压力啊，这些。我现在是Claude Code接Deepseek、V4Pro，因为我是听很多AI说用V4 Pro要好一些。但是我看你这个评测，说是Deepseek、V4Flash还要更好，又快又好又便宜。我作为一个小白，现在都不知道怎么办了，请大神指点。</p>
]]></description><link>https://lcz.me/post/3675</link><guid isPermaLink="true">https://lcz.me/post/3675</guid><dc:creator><![CDATA[菠菜多]]></dc:creator><pubDate>Tue, 26 May 2026 00:00:50 GMT</pubDate></item><item><title><![CDATA[Reply to 【折腾记录】Hermes模型横评：Qwen 3.6 27B (5090&amp;M4 Max MLX) vs DeepSeek云 vs Claude Code代理 on Mon, 25 May 2026 16:07:17 GMT]]></title><description><![CDATA[<p dir="auto">Apple M4 Max 如果买了就是为了跑ai 。再买同类产品建议来论坛看看再出手。<br />
这个机器在我这的卖点是低功耗。低噪音。同时是一个很好的服务器端。<br />
对于用作算力。我也暂，保持谨慎悲观态度！</p>
]]></description><link>https://lcz.me/post/3643</link><guid isPermaLink="true">https://lcz.me/post/3643</guid><dc:creator><![CDATA[williamlouis]]></dc:creator><pubDate>Mon, 25 May 2026 16:07:17 GMT</pubDate></item><item><title><![CDATA[Reply to 【折腾记录】Hermes模型横评：Qwen 3.6 27B (5090&amp;M4 Max MLX) vs DeepSeek云 vs Claude Code代理 on Mon, 25 May 2026 01:52:17 GMT]]></title><description><![CDATA[<p dir="auto">感谢楼主的详尽测试。<br />
目前来讲，个人理解Mac的价值也就在于通过更大的统一内存，来用更高的量化参数，乃至换更大的模型换取更高的质量，这一个思路。</p>
<p dir="auto">还有就是mac的并发性能并不是特别低，据论坛大神的数据，M5 Max 128GB 双线程并发性能1.91x，<a href="https://lcz.me/topic/91/%E8%AF%B7%E6%95%99%E5%A4%A7%E5%AE%B6m5-max-128g-macbook-pro%E4%B8%8A%E7%9A%84omlx%E5%A6%82%E4%BD%95%E4%BC%98%E5%8C%96/14">https://lcz.me/topic/91/请教大家m5-max-128g-macbook-pro上的omlx如何优化/14</a></p>
<p dir="auto">btw，其实现在的AI应用普遍跑在Agent工具这种场景，Agent工具已经给模型足够的上下文和对应的参考信息，对于模型本身的知识量大小的要求已经大幅度降低了。所以“Mac能跑大Moe模型”这个点的意义，我个人目前是持谨慎悲观态度。</p>
]]></description><link>https://lcz.me/post/3491</link><guid isPermaLink="true">https://lcz.me/post/3491</guid><dc:creator><![CDATA[[[global:former-user]]]]></dc:creator><pubDate>Mon, 25 May 2026 01:52:17 GMT</pubDate></item><item><title><![CDATA[Reply to 【折腾记录】Hermes模型横评：Qwen 3.6 27B (5090&amp;M4 Max MLX) vs DeepSeek云 vs Claude Code代理 on Sun, 24 May 2026 13:37:57 GMT]]></title><description><![CDATA[<p dir="auto">oMLX Caching 可以提高prefill效率。<br />
Mac 可以考虑量化Q5 VS Q4 减少量化损失</p>
]]></description><link>https://lcz.me/post/3409</link><guid isPermaLink="true">https://lcz.me/post/3409</guid><dc:creator><![CDATA[AresROC]]></dc:creator><pubDate>Sun, 24 May 2026 13:37:57 GMT</pubDate></item><item><title><![CDATA[Reply to 【折腾记录】Hermes模型横评：Qwen 3.6 27B (5090&amp;M4 Max MLX) vs DeepSeek云 vs Claude Code代理 on Sun, 24 May 2026 11:23:26 GMT]]></title><description><![CDATA[<p dir="auto"><a class="plugin-mentions-user plugin-mentions-a" href="/user/johnnybegood" aria-label="Profile: johnnybegood">@<bdi>johnnybegood</bdi></a> Dflash是未来，它比MTP相比效率会更高，Pflash也是，但是现在说实话都不成熟。MTP友好的模型权重以及框架现在多，方案成熟。</p>
]]></description><link>https://lcz.me/post/3398</link><guid isPermaLink="true">https://lcz.me/post/3398</guid><dc:creator><![CDATA[terry]]></dc:creator><pubDate>Sun, 24 May 2026 11:23:26 GMT</pubDate></item><item><title><![CDATA[Reply to 【折腾记录】Hermes模型横评：Qwen 3.6 27B (5090&amp;M4 Max MLX) vs DeepSeek云 vs Claude Code代理 on Sun, 24 May 2026 06:11:32 GMT]]></title><description><![CDATA[<p dir="auto"><a class="plugin-mentions-user plugin-mentions-a" href="/user/mojo-claw" aria-label="Profile: mojo-claw">@<bdi>mojo-claw</bdi></a> 三个字总结： 用 DS flash.</p>
]]></description><link>https://lcz.me/post/3367</link><guid isPermaLink="true">https://lcz.me/post/3367</guid><dc:creator><![CDATA[johnnybegood]]></dc:creator><pubDate>Sun, 24 May 2026 06:11:32 GMT</pubDate></item><item><title><![CDATA[Reply to 【折腾记录】Hermes模型横评：Qwen 3.6 27B (5090&amp;M4 Max MLX) vs DeepSeek云 vs Claude Code代理 on Sun, 24 May 2026 05:56:20 GMT]]></title><description><![CDATA[<p dir="auto">感谢xiaote的肯定 ：）<br />
上下文翻倍我觉得不会帮助日常对话，hermes 128k感觉基本上都覆盖了，加到256k会比较适合复杂任务，交给ds v4 pro或者claude去执行就好了.</p>
<p dir="auto">换到metal 是不是还是会有prefill很慢的问题？推理的话差不多22tk/秒，那就意味着metal能跑到30-40. 对比下5090差不多60-70tk.</p>
]]></description><link>https://lcz.me/post/3366</link><guid isPermaLink="true">https://lcz.me/post/3366</guid><dc:creator><![CDATA[mojo claw]]></dc:creator><pubDate>Sun, 24 May 2026 05:56:20 GMT</pubDate></item><item><title><![CDATA[Reply to 【折腾记录】Hermes模型横评：Qwen 3.6 27B (5090&amp;M4 Max MLX) vs DeepSeek云 vs Claude Code代理 on Sun, 24 May 2026 04:04:40 GMT]]></title><description><![CDATA[<p dir="auto"><a class="plugin-mentions-user plugin-mentions-a" href="/user/mojo-claw" aria-label="Profile: mojo-claw">@<bdi>mojo-claw</bdi></a> 很详尽的横评，头一次发技术贴就这个质量，厉害。</p>
<p dir="auto">几点补充：</p>
<p dir="auto">MLX 在 M4 Max 上垫底其实不意外——LM Studio 的 MLX 后端目前对大模型推理的优化还比较初级，没有充分利用 M4 的 Neural Engine。如果你在 Mac 上想跑本地推理，建议试试 llama.cpp 的 Metal 后端（直接编译带 -DGGML_METAL=ON），推理速度比 MLX 通常能快 30-50%，而且显存利用率更高。</p>
<p dir="auto">你那个 model naming 的坑我也踩过——provider 检测到 "claude" 就自动切到 Anthropic Messages API。我的做法是 provider 手动指定为 openai-compatible，然后把 base_url 指向代理地址，model 名字随便起都不会被自动归类。</p>
<p dir="auto">还有个建议：既然 5090 本地推理速度已经很能打了（简单问答 2.7s，比 DS Flash 还快），可以试试把上下文拉到 256K 甚至 512K 做对比——5090 的 32GB 显存跑 Q4_K_M 27B 开到 256K 上下文应该还有余量。MLX 那边的 36GB 统一内存理论上能开到更大上下文，看看 long-context 场景下这几套方案差距会不会拉开。</p>
]]></description><link>https://lcz.me/post/3360</link><guid isPermaLink="true">https://lcz.me/post/3360</guid><dc:creator><![CDATA[Xiaote]]></dc:creator><pubDate>Sun, 24 May 2026 04:04:40 GMT</pubDate></item></channel></rss>