跳转至内容
  • 版块
  • 最新
  • 标签
  • 热门
  • 用户
  • 群组
皮肤
  • 浅色
  • Brite
  • Cerulean
  • Cosmo
  • Flatly
  • Journal
  • Litera
  • Lumen
  • Lux
  • Materia
  • Minty
  • Morph
  • Pulse
  • Sandstone
  • Simplex
  • Sketchy
  • Spacelab
  • United
  • Yeti
  • Zephyr
  • 深色
  • Cyborg
  • Darkly
  • Quartz
  • Slate
  • Solar
  • Superhero
  • Vapor

  • 默认(不使用皮肤)
  • 不使用皮肤
折叠
品牌标识

抡锤者

  1. 主页
  2. AI Agent
  3. 实测Hermes + Qwen3.6 27B 使用Qwen-Fixed-Chat-Templates大幅提高缓存命中率

实测Hermes + Qwen3.6 27B 使用Qwen-Fixed-Chat-Templates大幅提高缓存命中率

已定时 已固定 已锁定 已移动 AI Agent
缓存命中率
23 帖子 16 发布者 755 浏览 7 关注中
  • 从旧到新
  • 从新到旧
  • 最多赞同
回复
  • 在新帖中回复
登录后回复
此主题已被删除。只有拥有主题管理权限的用户可以查看。
  • B 离线
    B 离线
    blackjack
    编写于 最后由 blackjack 编辑
    #8

    我试了下,效果不如我hack的Hermes好啊。

    以下是我详细的测试结果。
    在当前这套本地栈里,froggeric/Qwen-Fixed-Chat-Templates 没有带来更好的 KV 复用,反而比我现在用的 Qwen3-stable-reasoning.jinja 更差。

    关键结论:

    • 两组都没有出现 forcing full prompt re-processing due to lack of cache data
    • 两组都能稳定走完 8 轮真实工具调用
    • 但 froggeric 模板每轮需要重算的 token 明显更多
    • 受控重跑里,现有模板的 cache hit 更高,uncached token 更少

    所以社区帖子里“fixed chat template 大幅提高 Hermes + Qwen3.6 cache 命中率”这件事,至少不能直接外推到我当前这套:

    • custom-agent-stack/hermes 本地定制
    • ik_llama.cpp/build-mmq/bin/llama-server
    • 单槽 MMQ + MTP + 128k ctx
    • 本地 replay / save-restore / diagnostics 改造后的工作流

    更像是:

    • 对方原始模板或运行栈本来就更容易漂
    • 而我当前本地模板已经处在一个相对稳定的状态

    测试目的

    验证这篇帖子里的说法,是否适用于我当前本地工作流:

    • https://lcz.me/topic/298/...
    • 主题:Qwen-Fixed-Chat-Templates 是否能显著降低 Hermes 长会话下的 cache miss / forcing full

    测试原则:

    • 同一个 llama-server 二进制
    • 同一个模型
    • 同一套 MMQ / MTP / 128k 参数
    • 同一个 Hermes 启动链
    • 只换 chat template

    模板 A / B

    A 组:当前本地模板

    • 文件:~/custom-agent-stack/local-agent-setup/templates/Qwen3-stable-reasoning.jinja

    B 组:froggeric 模板

    • 来源:https://huggingface.co/froggeric/Qwen-Fixed-Chat-Templates
    • 本地文件:~/.cache/local-agent-setup/templates/froggeric/chat_template.jinja
    • sha256:4649b3fa3db3fda4d51173ed4ff0175fde7ece8bbceb9d595d04d862020c9746

    运行环境

    • 模型:~/models/Qwen3.6-27B-MTP-IQ4_KS.gguf
    • server:~/src/ik_llama.cpp/build-mmq/bin/llama-server
    • launcher:~/custom-agent-stack/local-agent-setup/start-llama-server-ik-mmq.sh
    • Hermes:~/custom-agent-stack/local-agent-setup/start-hermes-mmq.sh

    共用参数:

    • CTX_SIZE=128000
    • ENABLE_VISION=off
    • --parallel 1
    • -ngl 999
    • --cache-type-k q8_0
    • --cache-type-v q8_0
    • --flash-attn on
    • --multi-token-prediction
    • --draft-max 2
    • --draft-p-min 0.0
    • --merge-qkv
    • --merge-up-gate-experts
    • --cache-ram 32768
    • --ctx-checkpoints 32
    • --jinja
    • --reasoning off

    对照方法

    这次实际做了两轮测试。

    第一轮:普通多轮工具请求

    目录:

    • ~/.cache/local-agent-setup/ab-qwen-fixed-template-iq4ks-20260526-060644

    这一轮能看出大方向,但有一个污染点:

    • A 组首轮没有调用工具,模型直接答出了 alpha beta gamma
    • B 组首轮走了真实 terminal

    所以这轮只能算:

    • 初筛结论
    • 不能作为最终严肃证据

    第二轮:受控随机文件重跑

    目录:

    • ~/.cache/local-agent-setup/ab-qwen-fixed-template-iq4ks-controlled-20260526-061256

    这轮才是有效结论。

    控制方式:

    • 预先生成 8 个随机文件
    • 每轮都要求模型必须用 terminal 执行 cat <file>
    • 文件内容是模型不可能预知的随机 UUID
    • 两组都达成 8/8 真实工具调用

    这保证了:

    • 不是“模型猜中了输出”
    • 不是“某组首轮偷答绕过工具”
    • 两边历史链条的结构尽量一致

    受控重跑结果

    总结指标

    A 组:当前本地模板

    • tool_preview_count = 8
    • forced_full_reprocess_count = 0
    • avg_cache_hit_pct = 96.81
    • avg_uncached_tokens = 87.38
    • post_t1_avg_cache_hit_pct = 97.29
    • post_t1_avg_uncached_tokens = 80.43

    B 组:froggeric 模板

    • tool_preview_count = 8
    • forced_full_reprocess_count = 0
    • avg_cache_hit_pct = 94.74
    • avg_uncached_tokens = 168.38
    • post_t1_avg_cache_hit_pct = 95.00
    • post_t1_avg_uncached_tokens = 168.71

    turn-by-turn

    A 组:当前本地模板

    turn prompt_tokens cached_tokens uncached_tokens cache_hit_pct
    1 2089 1953 136 93.49
    2 2338 2270 68 97.09
    3 2590 2451 139 94.63
    4 2844 2774 70 97.54
    5 3098 3027 71 97.71
    6 3353 3282 71 97.88
    7 3609 3537 72 98.00
    8 3866 3794 72 98.14

    B 组:froggeric 模板

    turn prompt_tokens cached_tokens uncached_tokens cache_hit_pct
    1 2348 2182 166 92.93
    2 2623 2457 166 93.67
    3 2901 2732 169 94.17
    4 3181 3013 168 94.72
    5 3461 3292 169 95.12
    6 3742 3573 169 95.48
    7 4024 3854 170 95.78
    8 4307 4137 170 96.05

    结果怎么解读

    1. 这不是 forcing full 级问题

    两边都没有出现:

    • forcing full prompt re-processing due to lack of cache data

    说明当前本地链路已经比较稳定。

    也就是说,这次 A/B 主要比较的是:

    • 谁的共享前缀更长
    • 谁每轮需要补算的 token 更少

    而不是比较“谁会炸、谁不会炸”。

    2. froggeric 模板在我这里更重

    受控重跑里,froggeric 模板几乎每轮都比本地模板多重算接近一倍的 token:

    • 本地模板后 7 轮平均 uncached:80.43
    • froggeric 后 7 轮平均 uncached:168.71

    这不是小抖动,而是明显更差。

    3. 社区帖子和我这里不矛盾,但条件不同

    更合理的解释不是“帖子错了”,而是:

    1. 对方的原始模板更容易在 tool_call / tool_response / think 边界上漂
    2. 我本地模板和 Hermes replay 链路已经被专门收拾过
    3. froggeric 模板在我这套本地定制栈里没有形成更短、更稳的共享前缀,反而引入了更多稳定额外 token

    所以它在我这里没有收益,甚至有负收益。

    1 条回复 最后回复
    2
    • 系统 取消固定了该主题
    • N 离线
      N 离线
      neo
      编写于 最后由 编辑
      #9

      牛牛牛,加了Qwen-Fixed-Chat-Templates之后,测试了下,缓存果然没有不命中了,没毛病

      1 条回复 最后回复
      0
      • TideT 离线
        TideT 离线
        Tide
        编写于 最后由 编辑
        #10

        这个必须去了解一下。。。谢谢楼主分享

        1 条回复 最后回复
        0
        • kos orK 离线
          kos orK 离线
          kos or
          编写于 最后由 编辑
          #11

          看來是個很重要的東西 先收藏了 留著之後注意研究 感謝樓主分享 ; 動態省略 <think>...</think> 推理過程 是合理操作 但是也造成 緩存命中率的問題

          1 条回复 最后回复
          0
          • N 离线
            N 离线
            neo
            编写于 最后由 neo 编辑
            #12

            感谢楼主的分享,经过几天测试,发现使用后确实kv缓存被prefill的次数明显减少,这点非常到位,同时也发现在hermes中agent调用工具时频繁出现只说不做的情况,不知大家是否也有这样的情况?我准备试着结合Qwen原版和Fix版本合成一个新的版本来测试一下,有相同情况的朋友可以来指导探讨下。

            1 条回复 最后回复
            0
            • williamlouisW 离线
              williamlouisW 离线
              williamlouis
              编写于 最后由 编辑
              #13

              复制收藏了。劲爆。有效。

              个人主页:xlkj.org Telegram https://t.me/xlkjorg

              1 条回复 最后回复
              0
              • W 离线
                W 离线
                whjwyc
                编写于 最后由 编辑
                #14

                感谢楼主的付出,测试有效!

                1 条回复 最后回复
                0
                • sil041S 离线
                  sil041S 离线
                  sil041
                  编写于 最后由 编辑
                  #15

                  感謝~先準備抄作業

                  1 条回复 最后回复
                  0
                  • bily jB 离线
                    bily jB 离线
                    bily j
                    编写于 最后由 编辑
                    #16

                    都实际测试没有阿, --jinja跟他是一个效果吗?谁的效果好呀?

                    1 条回复 最后回复
                    0
                    • C 离线
                      C 离线
                      Colt
                      编写于 最后由 Colt 编辑
                      #17

                      更新下,又发现了一个基于 froggeric 的模板再优化的版本:https://huggingface.co/spiritbuun/buun-Qwen3.6-chat_template 。自己用了两天,如果是一般性的聊天,几乎不再会缓存重建。但调用browser等工具引发大量token引入的情况下,还是会发生。不过已经改善良多了,感谢作者。

                      下载地址: https://huggingface.co/spiritbuun/buun-Qwen3.6-chat_template/tree/main

                      另外,我让Hermes监控llama.cpp的输出日志,自己跑两组测试,看看还可以调整哪些参数进一步优化缓存重建的问题。 它调试分析后建议就我的硬件情况,可增加如下参数 --ctx-checkpoints 32 --checkpoint-min-step 256 --cache-ram 12288。大家也可以自己试试。

                      L 1 条回复 最后回复
                      3
                      • kos orK 离线
                        kos orK 离线
                        kos or
                        编写于 最后由 编辑
                        #18

                        缓存重建 的機制很微妙....我也丟給Herms 幫我分析一下 感謝樓主持續更新 :)

                        1 条回复 最后回复
                        0
                        • C Colt

                          更新下,又发现了一个基于 froggeric 的模板再优化的版本:https://huggingface.co/spiritbuun/buun-Qwen3.6-chat_template 。自己用了两天,如果是一般性的聊天,几乎不再会缓存重建。但调用browser等工具引发大量token引入的情况下,还是会发生。不过已经改善良多了,感谢作者。

                          下载地址: https://huggingface.co/spiritbuun/buun-Qwen3.6-chat_template/tree/main

                          另外,我让Hermes监控llama.cpp的输出日志,自己跑两组测试,看看还可以调整哪些参数进一步优化缓存重建的问题。 它调试分析后建议就我的硬件情况,可增加如下参数 --ctx-checkpoints 32 --checkpoint-min-step 256 --cache-ram 12288。大家也可以自己试试。

                          L 离线
                          L 离线
                          laobenxiong
                          编写于 最后由 编辑
                          #19

                          @Colt 说:

                          我让Hermes监控llama.cpp的输出日志

                          这是个好主意 👍

                          1 条回复 最后回复
                          0
                          • terryT terry 固定了该主题
                          • XiaoteX 离线
                            XiaoteX 离线
                            Xiaote
                            编写于 最后由 编辑
                            #20

                            @bily j 关于--jinja和chat template的关系,我来解释一下:

                            本质上两者是同一个东西,只是生效方式不同。

                            --jinja 是 llama.cpp server 的参数,用来指定一个自定义的 Jinja2 模板文件。而 Qwen-Fixed-Chat-Templates(以及后来 Colt 更新的 buun 版本)提供的就是模板文件本身。

                            也就是说:

                            • 用 --jinja 指向 froggeric 的模板 → 效果等同直接替换 chat_template
                            • 不设 --jinja,llama.cpp 用模型自带的 template → KV 缓存重建率高
                            • 设了 --jinja 指向优化模板 → KV 缓存命中率明显提升

                            所以关键在于模板内容,不是用 --jinja 还是改模板文件。 只要是同一个优化模板,两种方式的缓存效果完全一样。

                            不过有个细节:--jinja 的优先级高于模型自带的 template,所以用了 --jinja 后,模型自带的 template 会被覆盖。好处是不用改模型文件,换模板只需改 --jinja 路径。

                            关于 buun 版本:Colt 后来更新的那个(spiritbuun/buun-Qwen3.6-chat_template)是在 froggeric 基础上进一步优化了日常对话场景的缓存复用。如果是一般聊天,buun 版的缓存重建更少。但工具调用(browser 等引入大量 token)时还是会触发重建,这是模型本身的 attention 机制决定的,模板只能缓解不能根除。

                            1 条回复 最后回复
                            0
                            • Don Zhu 0D 离线
                              Don Zhu 0D 离线
                              Don Zhu 0
                              编写于 最后由 Don Zhu 0 编辑
                              #21

                              感谢分享,实测有效。我使用的buun这个版本
                              之前经常出现forcing full prompt re-processing
                              响应时间15秒左右
                              现在都是restored context checkpoint
                              响应时间2-3秒

                              1 条回复 最后回复
                              0
                              • S 离线
                                S 离线
                                stxpnet
                                编写于 最后由 编辑
                                #22

                                mark 收藏了,晚上试试,谢谢

                                1 条回复 最后回复
                                0
                                • I 离线
                                  I 离线
                                  icyliving
                                  编写于 最后由 编辑
                                  #23

                                  晚上回来试了下,确实有效。点赞。

                                  1 条回复 最后回复
                                  0
                                  • 系统 取消固定了该主题

                                  你好!看起来您对这段对话很感兴趣,但您还没有一个账号。

                                  厌倦了每次访问都刷到同样的帖子?您注册账号后,您每次返回时都能精准定位到您上次浏览的位置,并可选择接收新回复通知(通过邮件或推送通知)。您还能收藏书签、为帖子顶,向社区成员表达您的欣赏。

                                  有了你的建议,这篇帖子会更精彩哦 💗

                                  注册 登录
                                  回复
                                  • 在新帖中回复
                                  登录后回复
                                  • 从旧到新
                                  • 从新到旧
                                  • 最多赞同


                                  • 登录

                                  • 没有帐号? 注册

                                  • 登录或注册以进行搜索。
                                  • 第一个帖子
                                    最后一个帖子
                                  0
                                  • 版块
                                  • 最新
                                  • 标签
                                  • 热门
                                  • 用户
                                  • 群组