跳转至内容
  • 版块
  • 最新
  • 标签
  • 热门
  • 用户
  • 群组
皮肤
  • 浅色
  • Brite
  • Cerulean
  • Cosmo
  • Flatly
  • Journal
  • Litera
  • Lumen
  • Lux
  • Materia
  • Minty
  • Morph
  • Pulse
  • Sandstone
  • Simplex
  • Sketchy
  • Spacelab
  • United
  • Yeti
  • Zephyr
  • 深色
  • Cyborg
  • Darkly
  • Quartz
  • Slate
  • Solar
  • Superhero
  • Vapor

  • 默认(不使用皮肤)
  • 不使用皮肤
折叠
品牌标识

抡锤者

  1. 主页
  2. LLM讨论区
  3. 【7900xtx】装了个claude code,一天烧3000万token,莫非是我本地大模型太蠢了?坑在哪里?

【7900xtx】装了个claude code,一天烧3000万token,莫非是我本地大模型太蠢了?坑在哪里?

已定时 已固定 已锁定 已移动 LLM讨论区
4 帖子 3 发布者 151 浏览
  • 从旧到新
  • 从新到旧
  • 最多赞同
回复
  • 在新帖中回复
登录后回复
此主题已被删除。只有拥有主题管理权限的用户可以查看。
  • K 离线
    K 离线
    koala
    编写于 最后由 koala 编辑
    #1

    822eadb0-cf56-4a5a-9543-17aa6e1985bd-image.jpeg
    本地大模型还是使用Qwen3.6-27B
    Qwen3.6-27B-uncensored-abliterated-MTP-i1-IQ4_XS-FFN-IQ3.gguf
    模型 Qwen3.6-27B 极速版 启动成功!

    服务地址: http://localhost:8080
    API端点: http://localhost:8080/v1/
    PID: 60463
    日志文件: /tmp/llama_server.log
    启动参数: -ngl 999 -c 131072 --cache-type-k q4_0 --cache-type-v q4_0 --reasoning off --cont-batching --cache-prompt
    6147a872-77d0-475b-a006-fa058cdf60e4-image.jpeg

    说说感受,claude code的体感确实比hermes好很多,无论从速度上还是从友好程度上,断了可以从断的位置直接新开。
    hermes我拿来编程,动不动上下文满了,基本进入不了下一步。
    3daff75c-d2be-4dfc-8f65-405d827df8e1-image.jpeg 能用的时间长一些,唯一不足的是经常显示400,说是调用工具错误,新开一个又能用了。

    1 条回复 最后回复
    0
    • XiaoteX 离线
      XiaoteX 离线
      Xiaote
      劳动模范
      编写于 最后由 编辑
      #2

      @koala 你遇到的这两个问题其实都有解决办法:

      1. 上下文满了进不了下一步
      这是 Hermes 的 context window 管理问题。有几个方法可以改善:

      • 在 ~/.config/hermes/config.yaml 里设置 context_window: 32768 或更低,让 Hermes 在接近限制前主动做摘要压缩
      • 使用 --max-tool-calls 20 限制单轮工具调用次数,减少上下文膨胀
      • 对于编程任务,建议把大任务拆成小步骤,每一步完成后 Hermes 会释放部分上下文

      2. 400 tool call error
      这个通常是工具返回结果太大导致上下文溢出,或者工具调用格式问题。解决方法:

      • 在 vLLM 启动参数加上 --max-model-len 32768,给工具调用留更多余量
      • 检查 config.yaml 里的 tools 配置,确保每个 tool 的返回值不要太大
      • 如果频繁出现,可以设置 auto_recovery: true 让 Hermes 自动重试

      Claude Code vs Hermes 的体感差异正常:
      Claude Code 是 Anthropic 专门为编程优化的产品,上下文管理更激进。Hermes 是通用 Agent 框架,编程只是其中一个能力。如果你主要做编程,可以考虑在 coding 场景上用 Claude Code,在需要上网搜索、多工具编排、自动化流程的场景用 Hermes,两者不冲突。

      你用的是 Qwen3.6-27B-abliterated + llama.cpp,建议把 context length 设到 32768(llama-server 的 -c 参数),Hermes 的 max_tokens 设 4096,应该能明显改善体验。

      1 条回复 最后回复
      0
      • terryT 离线
        terryT 离线
        terry
        超级版主
        编写于 最后由 编辑
        #3

        3000万tokens算很小的消耗了,做编程用CC,日常通用任务用Hermes,不存在谁好谁坏。

        油管:https://www.youtube.com/@抡锤者

        1 条回复 最后回复
        0
        • K 离线
          K 离线
          koala
          编写于 最后由 编辑
          #4

          f3ab8240-db75-4340-a9fa-bc6b5e654880-image.jpeg
          提示400是因为我用了越狱版的大模型导致的,换回普通版大模型,就好了
          qwen3.6-27b-instruct-Q4_K_M.gguf

          1 条回复 最后回复
          0

          你好!看起来您对这段对话很感兴趣,但您还没有一个账号。

          厌倦了每次访问都刷到同样的帖子?您注册账号后,您每次返回时都能精准定位到您上次浏览的位置,并可选择接收新回复通知(通过邮件或推送通知)。您还能收藏书签、为帖子顶,向社区成员表达您的欣赏。

          有了你的建议,这篇帖子会更精彩哦 💗

          注册 登录
          回复
          • 在新帖中回复
          登录后回复
          • 从旧到新
          • 从新到旧
          • 最多赞同


          • 登录

          • 没有帐号? 注册

          • 第一个帖子
            最后一个帖子
          0
          • 版块
          • 最新
          • 标签
          • 热门
          • 用户
          • 群组