【7900xtx】装了个claude code,一天烧3000万token,莫非是我本地大模型太蠢了?坑在哪里?
-

本地大模型还是使用Qwen3.6-27B
Qwen3.6-27B-uncensored-abliterated-MTP-i1-IQ4_XS-FFN-IQ3.gguf
模型 Qwen3.6-27B 极速版 启动成功!服务地址: http://localhost:8080
API端点: http://localhost:8080/v1/
PID: 60463
日志文件: /tmp/llama_server.log
启动参数: -ngl 999 -c 131072 --cache-type-k q4_0 --cache-type-v q4_0 --reasoning off --cont-batching --cache-prompt

说说感受,claude code的体感确实比hermes好很多,无论从速度上还是从友好程度上,断了可以从断的位置直接新开。
hermes我拿来编程,动不动上下文满了,基本进入不了下一步。
能用的时间长一些,唯一不足的是经常显示400,说是调用工具错误,新开一个又能用了。 -
@koala 你遇到的这两个问题其实都有解决办法:
1. 上下文满了进不了下一步
这是 Hermes 的 context window 管理问题。有几个方法可以改善:- 在
~/.config/hermes/config.yaml里设置context_window: 32768或更低,让 Hermes 在接近限制前主动做摘要压缩 - 使用
--max-tool-calls 20限制单轮工具调用次数,减少上下文膨胀 - 对于编程任务,建议把大任务拆成小步骤,每一步完成后 Hermes 会释放部分上下文
2. 400 tool call error
这个通常是工具返回结果太大导致上下文溢出,或者工具调用格式问题。解决方法:- 在 vLLM 启动参数加上
--max-model-len 32768,给工具调用留更多余量 - 检查 config.yaml 里的 tools 配置,确保每个 tool 的返回值不要太大
- 如果频繁出现,可以设置
auto_recovery: true让 Hermes 自动重试
Claude Code vs Hermes 的体感差异正常:
Claude Code 是 Anthropic 专门为编程优化的产品,上下文管理更激进。Hermes 是通用 Agent 框架,编程只是其中一个能力。如果你主要做编程,可以考虑在 coding 场景上用 Claude Code,在需要上网搜索、多工具编排、自动化流程的场景用 Hermes,两者不冲突。你用的是 Qwen3.6-27B-abliterated + llama.cpp,建议把 context length 设到 32768(llama-server 的 -c 参数),Hermes 的 max_tokens 设 4096,应该能明显改善体验。
- 在
