跳转至内容
  • 版块
  • 最新
  • 标签
  • 热门
  • 用户
  • 群组
皮肤
  • 浅色
  • Brite
  • Cerulean
  • Cosmo
  • Flatly
  • Journal
  • Litera
  • Lumen
  • Lux
  • Materia
  • Minty
  • Morph
  • Pulse
  • Sandstone
  • Simplex
  • Sketchy
  • Spacelab
  • United
  • Yeti
  • Zephyr
  • 深色
  • Cyborg
  • Darkly
  • Quartz
  • Slate
  • Solar
  • Superhero
  • Vapor

  • 默认(不使用皮肤)
  • 不使用皮肤
折叠
品牌标识

抡锤者

  1. 主页
  2. AI Agent
  3. 实测Hermes + Qwen3.6 27B 使用Qwen-Fixed-Chat-Templates大幅提高缓存命中率

实测Hermes + Qwen3.6 27B 使用Qwen-Fixed-Chat-Templates大幅提高缓存命中率

已定时 已固定 已锁定 已移动 AI Agent
缓存命中率
23 帖子 16 发布者 753 浏览 7 关注中
  • 从旧到新
  • 从新到旧
  • 最多赞同
回复
  • 在新帖中回复
登录后回复
此主题已被删除。只有拥有主题管理权限的用户可以查看。
  • N 离线
    N 离线
    neo
    编写于 最后由 编辑
    #9

    牛牛牛,加了Qwen-Fixed-Chat-Templates之后,测试了下,缓存果然没有不命中了,没毛病

    1 条回复 最后回复
    0
    • TideT 离线
      TideT 离线
      Tide
      编写于 最后由 编辑
      #10

      这个必须去了解一下。。。谢谢楼主分享

      1 条回复 最后回复
      0
      • kos orK 在线
        kos orK 在线
        kos or
        编写于 最后由 编辑
        #11

        看來是個很重要的東西 先收藏了 留著之後注意研究 感謝樓主分享 ; 動態省略 <think>...</think> 推理過程 是合理操作 但是也造成 緩存命中率的問題

        1 条回复 最后回复
        0
        • N 离线
          N 离线
          neo
          编写于 最后由 neo 编辑
          #12

          感谢楼主的分享,经过几天测试,发现使用后确实kv缓存被prefill的次数明显减少,这点非常到位,同时也发现在hermes中agent调用工具时频繁出现只说不做的情况,不知大家是否也有这样的情况?我准备试着结合Qwen原版和Fix版本合成一个新的版本来测试一下,有相同情况的朋友可以来指导探讨下。

          1 条回复 最后回复
          0
          • williamlouisW 离线
            williamlouisW 离线
            williamlouis
            编写于 最后由 编辑
            #13

            复制收藏了。劲爆。有效。

            个人主页:xlkj.org Telegram https://t.me/xlkjorg

            1 条回复 最后回复
            0
            • W 离线
              W 离线
              whjwyc
              编写于 最后由 编辑
              #14

              感谢楼主的付出,测试有效!

              1 条回复 最后回复
              0
              • sil041S 离线
                sil041S 离线
                sil041
                编写于 最后由 编辑
                #15

                感謝~先準備抄作業

                1 条回复 最后回复
                0
                • bily jB 离线
                  bily jB 离线
                  bily j
                  编写于 最后由 编辑
                  #16

                  都实际测试没有阿, --jinja跟他是一个效果吗?谁的效果好呀?

                  1 条回复 最后回复
                  0
                  • C 离线
                    C 离线
                    Colt
                    编写于 最后由 Colt 编辑
                    #17

                    更新下,又发现了一个基于 froggeric 的模板再优化的版本:https://huggingface.co/spiritbuun/buun-Qwen3.6-chat_template 。自己用了两天,如果是一般性的聊天,几乎不再会缓存重建。但调用browser等工具引发大量token引入的情况下,还是会发生。不过已经改善良多了,感谢作者。

                    下载地址: https://huggingface.co/spiritbuun/buun-Qwen3.6-chat_template/tree/main

                    另外,我让Hermes监控llama.cpp的输出日志,自己跑两组测试,看看还可以调整哪些参数进一步优化缓存重建的问题。 它调试分析后建议就我的硬件情况,可增加如下参数 --ctx-checkpoints 32 --checkpoint-min-step 256 --cache-ram 12288。大家也可以自己试试。

                    L 1 条回复 最后回复
                    3
                    • kos orK 在线
                      kos orK 在线
                      kos or
                      编写于 最后由 编辑
                      #18

                      缓存重建 的機制很微妙....我也丟給Herms 幫我分析一下 感謝樓主持續更新 :)

                      1 条回复 最后回复
                      0
                      • C Colt

                        更新下,又发现了一个基于 froggeric 的模板再优化的版本:https://huggingface.co/spiritbuun/buun-Qwen3.6-chat_template 。自己用了两天,如果是一般性的聊天,几乎不再会缓存重建。但调用browser等工具引发大量token引入的情况下,还是会发生。不过已经改善良多了,感谢作者。

                        下载地址: https://huggingface.co/spiritbuun/buun-Qwen3.6-chat_template/tree/main

                        另外,我让Hermes监控llama.cpp的输出日志,自己跑两组测试,看看还可以调整哪些参数进一步优化缓存重建的问题。 它调试分析后建议就我的硬件情况,可增加如下参数 --ctx-checkpoints 32 --checkpoint-min-step 256 --cache-ram 12288。大家也可以自己试试。

                        L 离线
                        L 离线
                        laobenxiong
                        编写于 最后由 编辑
                        #19

                        @Colt 说:

                        我让Hermes监控llama.cpp的输出日志

                        这是个好主意 👍

                        1 条回复 最后回复
                        0
                        • terryT terry 固定了该主题
                        • XiaoteX 离线
                          XiaoteX 离线
                          Xiaote
                          编写于 最后由 编辑
                          #20

                          @bily j 关于--jinja和chat template的关系,我来解释一下:

                          本质上两者是同一个东西,只是生效方式不同。

                          --jinja 是 llama.cpp server 的参数,用来指定一个自定义的 Jinja2 模板文件。而 Qwen-Fixed-Chat-Templates(以及后来 Colt 更新的 buun 版本)提供的就是模板文件本身。

                          也就是说:

                          • 用 --jinja 指向 froggeric 的模板 → 效果等同直接替换 chat_template
                          • 不设 --jinja,llama.cpp 用模型自带的 template → KV 缓存重建率高
                          • 设了 --jinja 指向优化模板 → KV 缓存命中率明显提升

                          所以关键在于模板内容,不是用 --jinja 还是改模板文件。 只要是同一个优化模板,两种方式的缓存效果完全一样。

                          不过有个细节:--jinja 的优先级高于模型自带的 template,所以用了 --jinja 后,模型自带的 template 会被覆盖。好处是不用改模型文件,换模板只需改 --jinja 路径。

                          关于 buun 版本:Colt 后来更新的那个(spiritbuun/buun-Qwen3.6-chat_template)是在 froggeric 基础上进一步优化了日常对话场景的缓存复用。如果是一般聊天,buun 版的缓存重建更少。但工具调用(browser 等引入大量 token)时还是会触发重建,这是模型本身的 attention 机制决定的,模板只能缓解不能根除。

                          1 条回复 最后回复
                          0
                          • Don Zhu 0D 离线
                            Don Zhu 0D 离线
                            Don Zhu 0
                            编写于 最后由 Don Zhu 0 编辑
                            #21

                            感谢分享,实测有效。我使用的buun这个版本
                            之前经常出现forcing full prompt re-processing
                            响应时间15秒左右
                            现在都是restored context checkpoint
                            响应时间2-3秒

                            1 条回复 最后回复
                            0
                            • S 在线
                              S 在线
                              stxpnet
                              编写于 最后由 编辑
                              #22

                              mark 收藏了,晚上试试,谢谢

                              1 条回复 最后回复
                              0
                              • I 离线
                                I 离线
                                icyliving
                                编写于 最后由 编辑
                                #23

                                晚上回来试了下,确实有效。点赞。

                                1 条回复 最后回复
                                0
                                • 系统 取消固定了该主题

                                你好!看起来您对这段对话很感兴趣,但您还没有一个账号。

                                厌倦了每次访问都刷到同样的帖子?您注册账号后,您每次返回时都能精准定位到您上次浏览的位置,并可选择接收新回复通知(通过邮件或推送通知)。您还能收藏书签、为帖子顶,向社区成员表达您的欣赏。

                                有了你的建议,这篇帖子会更精彩哦 💗

                                注册 登录
                                回复
                                • 在新帖中回复
                                登录后回复
                                • 从旧到新
                                • 从新到旧
                                • 最多赞同


                                • 登录

                                • 没有帐号? 注册

                                • 登录或注册以进行搜索。
                                • 第一个帖子
                                  最后一个帖子
                                0
                                • 版块
                                • 最新
                                • 标签
                                • 热门
                                • 用户
                                • 群组