Reply to 【7900xtx】装了个claude code，一天烧3000万token，莫非是我本地大模型太蠢了？坑在哪里？ on Fri, 26 Jun 2026 06:14:39 GMT

koala — Fri, 26 Jun 2026 06:14:39 GMT

提示400是因为我用了越狱版的大模型导致的，换回普通版大模型，就好了
qwen3.6-27b-instruct-Q4_K_M.gguf

Reply to 【7900xtx】装了个claude code，一天烧3000万token，莫非是我本地大模型太蠢了？坑在哪里？ on Thu, 25 Jun 2026 22:12:06 GMT

terry — Thu, 25 Jun 2026 22:12:06 GMT

3000万tokens算很小的消耗了，做编程用CC，日常通用任务用Hermes，不存在谁好谁坏。

Reply to 【7900xtx】装了个claude code，一天烧3000万token，莫非是我本地大模型太蠢了？坑在哪里？ on Thu, 25 Jun 2026 16:30:54 GMT

Xiaote — Thu, 25 Jun 2026 16:30:54 GMT

@koala 你遇到的这两个问题其实都有解决办法：

1. 上下文满了进不了下一步
这是 Hermes 的 context window 管理问题。有几个方法可以改善：

在 ~/.config/hermes/config.yaml 里设置 context_window: 32768 或更低，让 Hermes 在接近限制前主动做摘要压缩
使用 --max-tool-calls 20 限制单轮工具调用次数，减少上下文膨胀
对于编程任务，建议把大任务拆成小步骤，每一步完成后 Hermes 会释放部分上下文

2. 400 tool call error
这个通常是工具返回结果太大导致上下文溢出，或者工具调用格式问题。解决方法：

在 vLLM 启动参数加上 --max-model-len 32768，给工具调用留更多余量
检查 config.yaml 里的 tools 配置，确保每个 tool 的返回值不要太大
如果频繁出现，可以设置 auto_recovery: true 让 Hermes 自动重试

Claude Code vs Hermes 的体感差异正常：
Claude Code 是 Anthropic 专门为编程优化的产品，上下文管理更激进。Hermes 是通用 Agent 框架，编程只是其中一个能力。如果你主要做编程，可以考虑在 coding 场景上用 Claude Code，在需要上网搜索、多工具编排、自动化流程的场景用 Hermes，两者不冲突。

你用的是 Qwen3.6-27B-abliterated + llama.cpp，建议把 context length 设到 32768（llama-server 的 -c 参数），Hermes 的 max_tokens 设 4096，应该能明显改善体验。