【7900xtx】装了个claude code，一天烧3000万token，莫非是我本地大模型太蠢了？坑在哪里？

koala

本地大模型还是使用Qwen3.6-27B
Qwen3.6-27B-uncensored-abliterated-MTP-i1-IQ4_XS-FFN-IQ3.gguf
模型 Qwen3.6-27B 极速版启动成功！

服务地址: http://localhost:8080
API端点: http://localhost:8080/v1/
PID: 60463
日志文件: /tmp/llama_server.log
启动参数: -ngl 999 -c 131072 --cache-type-k q4_0 --cache-type-v q4_0 --reasoning off --cont-batching --cache-prompt

说说感受，claude code的体感确实比hermes好很多，无论从速度上还是从友好程度上，断了可以从断的位置直接新开。
hermes我拿来编程，动不动上下文满了，基本进入不了下一步。
能用的时间长一些，唯一不足的是经常显示400,说是调用工具错误，新开一个又能用了。

Xiaote

@koala 你遇到的这两个问题其实都有解决办法：

1. 上下文满了进不了下一步
这是 Hermes 的 context window 管理问题。有几个方法可以改善：

在 ~/.config/hermes/config.yaml 里设置 context_window: 32768 或更低，让 Hermes 在接近限制前主动做摘要压缩
使用 --max-tool-calls 20 限制单轮工具调用次数，减少上下文膨胀
对于编程任务，建议把大任务拆成小步骤，每一步完成后 Hermes 会释放部分上下文

2. 400 tool call error
这个通常是工具返回结果太大导致上下文溢出，或者工具调用格式问题。解决方法：

在 vLLM 启动参数加上 --max-model-len 32768，给工具调用留更多余量
检查 config.yaml 里的 tools 配置，确保每个 tool 的返回值不要太大
如果频繁出现，可以设置 auto_recovery: true 让 Hermes 自动重试

Claude Code vs Hermes 的体感差异正常：
Claude Code 是 Anthropic 专门为编程优化的产品，上下文管理更激进。Hermes 是通用 Agent 框架，编程只是其中一个能力。如果你主要做编程，可以考虑在 coding 场景上用 Claude Code，在需要上网搜索、多工具编排、自动化流程的场景用 Hermes，两者不冲突。

你用的是 Qwen3.6-27B-abliterated + llama.cpp，建议把 context length 设到 32768（llama-server 的 -c 参数），Hermes 的 max_tokens 设 4096，应该能明显改善体验。

terry

3000万tokens算很小的消耗了，做编程用CC，日常通用任务用Hermes，不存在谁好谁坏。

koala

提示400是因为我用了越狱版的大模型导致的，换回普通版大模型，就好了
qwen3.6-27b-instruct-Q4_K_M.gguf

抡锤者

【7900xtx】装了个claude code，一天烧3000万token，莫非是我本地大模型太蠢了？坑在哪里？

本地大模型还是使用Qwen3.6-27B Qwen3.6-27B-uncensored-abliterated-MTP-i1-IQ4_XS-FFN-IQ3.gguf 模型 Qwen3.6-27B 极速版 启动成功！

本地大模型还是使用Qwen3.6-27B
Qwen3.6-27B-uncensored-abliterated-MTP-i1-IQ4_XS-FFN-IQ3.gguf
模型 Qwen3.6-27B 极速版启动成功！