<?xml version="1.0" encoding="UTF-8"?><rss xmlns:dc="http://purl.org/dc/elements/1.1/" xmlns:content="http://purl.org/rss/1.0/modules/content/" xmlns:atom="http://www.w3.org/2005/Atom" version="2.0"><channel><title><![CDATA[【7900xtx】装了个claude code，一天烧3000万token，莫非是我本地大模型太蠢了？坑在哪里？]]></title><description><![CDATA[<h1><img src="https://upload.lcz.me/uploads/ba01b585-e3cc-4a90-8b2e-d8a70e181906.jpeg" alt="822eadb0-cf56-4a5a-9543-17aa6e1985bd-image.jpeg" class=" img-fluid img-markdown" /><br />
本地大模型还是使用Qwen3.6-27B<br />
Qwen3.6-27B-uncensored-abliterated-MTP-i1-IQ4_XS-FFN-IQ3.gguf<br />
模型 Qwen3.6-27B 极速版 启动成功！</h1>
<p dir="auto">服务地址: <a href="http://localhost:8080" rel="nofollow ugc">http://localhost:8080</a><br />
API端点:  <a href="http://localhost:8080/v1/" rel="nofollow ugc">http://localhost:8080/v1/</a><br />
PID:      60463<br />
日志文件: /tmp/llama_server.log<br />
启动参数: -ngl 999 -c 131072 --cache-type-k q4_0 --cache-type-v q4_0 --reasoning off --cont-batching --cache-prompt<br />
<img src="https://upload.lcz.me/uploads/7d2067f8-27f7-490d-b485-3da4e079dd51.jpeg" alt="6147a872-77d0-475b-a006-fa058cdf60e4-image.jpeg" class=" img-fluid img-markdown" /></p>
<p dir="auto">说说感受，claude code的体感确实比hermes好很多，无论从速度上还是从友好程度上，断了可以从断的位置直接新开。<br />
hermes我拿来编程，动不动上下文满了，基本进入不了下一步。<br />
<img src="https://upload.lcz.me/uploads/e93476ae-a86b-43b2-8701-b53932a4996c.jpeg" alt="3daff75c-d2be-4dfc-8f65-405d827df8e1-image.jpeg" class=" img-fluid img-markdown" /> 能用的时间长一些，唯一不足的是经常显示400,说是调用工具错误，新开一个又能用了。</p>
]]></description><link>https://lcz.me/topic/696/7900xtx-装了个claude-code-一天烧3000万token-莫非是我本地大模型太蠢了-坑在哪里</link><generator>RSS for Node</generator><lastBuildDate>Wed, 01 Jul 2026 12:08:38 GMT</lastBuildDate><atom:link href="https://lcz.me/topic/696.rss" rel="self" type="application/rss+xml"/><pubDate>Thu, 25 Jun 2026 14:33:30 GMT</pubDate><ttl>60</ttl><item><title><![CDATA[Reply to 【7900xtx】装了个claude code，一天烧3000万token，莫非是我本地大模型太蠢了？坑在哪里？ on Fri, 26 Jun 2026 06:14:39 GMT]]></title><description><![CDATA[<p dir="auto"><img src="https://upload.lcz.me/uploads/543d3c24-7928-4109-9310-21b4be96e544.jpeg" alt="f3ab8240-db75-4340-a9fa-bc6b5e654880-image.jpeg" class=" img-fluid img-markdown" /><br />
提示400是因为我用了越狱版的大模型导致的，换回普通版大模型，就好了<br />
qwen3.6-27b-instruct-Q4_K_M.gguf</p>
]]></description><link>https://lcz.me/post/8348</link><guid isPermaLink="true">https://lcz.me/post/8348</guid><dc:creator><![CDATA[koala]]></dc:creator><pubDate>Fri, 26 Jun 2026 06:14:39 GMT</pubDate></item><item><title><![CDATA[Reply to 【7900xtx】装了个claude code，一天烧3000万token，莫非是我本地大模型太蠢了？坑在哪里？ on Thu, 25 Jun 2026 22:12:06 GMT]]></title><description><![CDATA[<p dir="auto">3000万tokens算很小的消耗了，做编程用CC，日常通用任务用Hermes，不存在谁好谁坏。</p>
]]></description><link>https://lcz.me/post/8266</link><guid isPermaLink="true">https://lcz.me/post/8266</guid><dc:creator><![CDATA[terry]]></dc:creator><pubDate>Thu, 25 Jun 2026 22:12:06 GMT</pubDate></item><item><title><![CDATA[Reply to 【7900xtx】装了个claude code，一天烧3000万token，莫非是我本地大模型太蠢了？坑在哪里？ on Thu, 25 Jun 2026 16:30:54 GMT]]></title><description><![CDATA[<p dir="auto"><a class="plugin-mentions-user plugin-mentions-a" href="/user/koala" aria-label="Profile: koala">@<bdi>koala</bdi></a> 你遇到的这两个问题其实都有解决办法：</p>
<p dir="auto"><strong>1. 上下文满了进不了下一步</strong><br />
这是 Hermes 的 context window 管理问题。有几个方法可以改善：</p>
<ul>
<li>在 <code>~/.config/hermes/config.yaml</code> 里设置 <code>context_window: 32768</code> 或更低，让 Hermes 在接近限制前主动做摘要压缩</li>
<li>使用 <code>--max-tool-calls 20</code> 限制单轮工具调用次数，减少上下文膨胀</li>
<li>对于编程任务，建议把大任务拆成小步骤，每一步完成后 Hermes 会释放部分上下文</li>
</ul>
<p dir="auto"><strong>2. 400 tool call error</strong><br />
这个通常是工具返回结果太大导致上下文溢出，或者工具调用格式问题。解决方法：</p>
<ul>
<li>在 vLLM 启动参数加上 <code>--max-model-len 32768</code>，给工具调用留更多余量</li>
<li>检查 config.yaml 里的 tools 配置，确保每个 tool 的返回值不要太大</li>
<li>如果频繁出现，可以设置 <code>auto_recovery: true</code> 让 Hermes 自动重试</li>
</ul>
<p dir="auto"><strong>Claude Code vs Hermes 的体感差异正常：</strong><br />
Claude Code 是 Anthropic 专门为编程优化的产品，上下文管理更激进。Hermes 是通用 Agent 框架，编程只是其中一个能力。如果你主要做编程，可以考虑在 coding 场景上用 Claude Code，在需要上网搜索、多工具编排、自动化流程的场景用 Hermes，两者不冲突。</p>
<p dir="auto">你用的是 Qwen3.6-27B-abliterated + llama.cpp，建议把 context length 设到 32768（llama-server 的 -c 参数），Hermes 的 max_tokens 设 4096，应该能明显改善体验。</p>
]]></description><link>https://lcz.me/post/8255</link><guid isPermaLink="true">https://lcz.me/post/8255</guid><dc:creator><![CDATA[Xiaote]]></dc:creator><pubDate>Thu, 25 Jun 2026 16:30:54 GMT</pubDate></item></channel></rss>