跳转至内容
  • 版块
  • 最新
  • 标签
  • 热门
  • 用户
  • 群组
皮肤
  • 浅色
  • Brite
  • Cerulean
  • Cosmo
  • Flatly
  • Journal
  • Litera
  • Lumen
  • Lux
  • Materia
  • Minty
  • Morph
  • Pulse
  • Sandstone
  • Simplex
  • Sketchy
  • Spacelab
  • United
  • Yeti
  • Zephyr
  • 深色
  • Cyborg
  • Darkly
  • Quartz
  • Slate
  • Solar
  • Superhero
  • Vapor

  • 默认(不使用皮肤)
  • 不使用皮肤
折叠
品牌标识

抡锤者

  1. 主页
  2. LLM讨论区
  3. 06-21 Hermes 调用本机 Carnice-27B 模型体验 & 模板优化分享

06-21 Hermes 调用本机 Carnice-27B 模型体验 & 模板优化分享

已定时 已固定 已锁定 已移动 LLM讨论区
13 帖子 3 发布者 157 浏览 1 关注中
  • 从旧到新
  • 从新到旧
  • 最多赞同
回复
  • 在新帖中回复
登录后回复
此主题已被删除。只有拥有主题管理权限的用户可以查看。
  • S 离线
    S 离线
    stxpnet
    技术大牛 劳动模范
    编写于 最后由 编辑
    #1
         /data/model2/beellma616-kv.cpp/build/bin/llama-server \
      -m /data/model3/Carnice-V2-27B-IQ4_XS-mtp.gguf \
      -ngl 9999 --props \
      -fa on --metrics  --ctx-size 131072 -n 16000  \
      -ctk kvarn6 -ctv kvarn4 --kv-unified \
      --spec-type mtp --spec-draft-n-max 1 \
      --jinja --no-mmap --mlock -np 1   -b 4096 -ub 1024 \
      --host 0.0.0.0 --port 8025 \
      --reasoning off \
        --chat-template-kwargs '{"preserve_thinking":true}' \
      --reasoning-format deepseek --reasoning-budget 768 \
      --chat-template-file /data/model2/qwen3.6-27b-gguf/jscott3201-custom_pub_chat_template_qwen36.jinja \
       --temp 0.7  --top-k 20 --top-p 0.85 --min-p 0.0  --presence-penalty 1.5 --repeat-penalty 1.0
    

    📌 基础体验
    在我的使用感受中,Hermes 调用本机 27B 模型时,整体能力大概介于 DeepSeek Pro 和 DeepSeek Flash 之间。

    ⚠️ 存在的问题
    不过,它的工具调用一直表现马马虎虎,经常“抽风”。
    我猜测可能是 chat_template 导致的。后来试着不带 chat_template 运行这个模型,感觉它内置的模板可能本身就存在缺陷。

    💡 发现转机
    今天我用谷姐搜了一下,发现了一个由 jscott3201 制作的模板。这个模板号称是针对 harness 的,但套用到 Hermes 上居然有奇效——套上之后立马就不抽风了!

    🛠️ 下一步尝试
    于是我就有了个新想法:何不把这个模板和 v20 的模板融合一下,看看会发生什么?
    1e0265d7-7419-4b20-af08-ea41f87517c9-image.jpeg

    💡 我的思路,先让HERMES调用 子Agent 去做一个俄罗斯HTML游戏 ,总结一个模板文件的优劣势:
    84a3871c-285e-4936-972f-ecf39d601a9c-image.jpeg

    v20模板参数测试
    bcc6c172-66e5-4782-93f0-df36a1dbb0d7-image.jpeg

    再测一下内置模板的参数:
    14c14154-c410-4b81-ba91-c8fbd41dc603-image.jpeg

    1 条回复 最后回复
    0
    • williamlouisW 离线
      williamlouisW 离线
      williamlouis
      超级版主
      编写于 最后由 编辑
      #2

      兄弟你的主机配置带一下。整体能力大概介于 DeepSeek Pro 和 DeepSeek Flash 之间。有测试吗?上个图。总结版也行。 你说的这个标准不低哈。如果能行。很不错。

      个人主页:xlkj.org Telegram https://t.me/xlkjorg

      S 1 条回复 最后回复
      0
      • S 离线
        S 离线
        stxpnet
        技术大牛 劳动模范
        编写于 最后由 编辑
        #3

        1b2c0bc4-e27d-4b4b-bf7e-4c2e8ba3ae9b-image.jpeg

        0982d961-0fe9-4439-8fc9-22d6474d4d4b-image.jpeg

        它的自评总结在这里。 附上三份template的压缩包.
        注意,此份template尚在测试中,希望大家 一起抽时间完善它。
        它可能只适合于我帖子开头提到的 模型。
        如果要改进它建议 一定要开deepseek v4 pro或同等能力的在线大模型 。

        论坛似乎无法上传rar或ZIP附件,我直接把模板放这里了:
        https://wormhole.app/a7znY3#uigQTQtA9wLcnGXaKCpD-Q

        1 条回复 最后回复
        0
        • S 离线
          S 离线
          stxpnet
          技术大牛 劳动模范
          编写于 最后由 编辑
          #4

          新模板的效果:7feeb25c-3770-481f-a883-edb92bf71f91-image.jpeg
          它之所以一直不出结果,是因为我对这个PROFILE的SOUL有定义:

          6b6a93ac-0771-4b3e-ab01-5ec98419defc-image.jpeg

          旧的模板文件,调用不了几下就会出这样那样的错,还会撑爆上下文浪费TOKEN。

          1 条回复 最后回复
          0
          • C 离线
            C 离线
            c0aster
            编写于 最后由 编辑
            #5

            牛逼,赶紧替换试试

            S 1 条回复 最后回复
            0
            • C c0aster

              牛逼,赶紧替换试试

              S 离线
              S 离线
              stxpnet
              技术大牛 劳动模范
              编写于 最后由 编辑
              #6

              @c0aster 😧
              模型似乎不行,我现在又换模型了:

              hermes0621pm
                 killall llama-server 2>/dev/null; sleep 3
                       /data/model2/beellma616-kv.cpp/build/bin/llama-server \
                -m  /data/models/Qwopus3.6-27B-v2-MTP-IQ4_XS.gguf \
                -ngl 9999 --props \
                -fa on --metrics  --ctx-size 168000 -n 16000  \
                -ctk kvarn5 -ctv kvarn4 --kv-unified \
                --spec-type mtp --spec-draft-n-max 3 \
                --jinja --no-mmap --mlock -np 1   -b 2048 -ub 512 \
                --host 0.0.0.0 --port 8025 \
                --reasoning off \
                  --chat-template-kwargs '{"preserve_thinking":true}' \
                --reasoning-format deepseek --reasoning-budget 768 \
                  --chat-template-file /data/model2/qwen3.6-27b-gguf/chat_template-Carnice27B-MTP-opt-v2.jinja \
                 --temp 0.72  --top-k 20 --top-p 0.87 --min-p 0.0  --presence-penalty 1.5 --repeat-penalty 1.0
              
              C 1 条回复 最后回复
              -1
              • S 离线
                S 离线
                stxpnet
                技术大牛 劳动模范
                编写于 最后由 编辑
                #7

                02cea1ff-c792-42f6-a3ca-051710c18f28-image.jpeg

                这个模型和参数比较稳一些,我让HERMES自己逛reddit帮我找找有用的信息。哈哈

                1 条回复 最后回复
                0
                • S 离线
                  S 离线
                  stxpnet
                  技术大牛 劳动模范
                  编写于 最后由 编辑
                  #8

                  0fb5f034-5056-4bf5-8e9d-e937ac99bc43-image.jpeg 这个是cloakbrowser的管理器,可以看到浏览器,也能登陆网站,减少网站弹出验证的频率。

                  1 条回复 最后回复
                  0
                  • williamlouisW williamlouis

                    兄弟你的主机配置带一下。整体能力大概介于 DeepSeek Pro 和 DeepSeek Flash 之间。有测试吗?上个图。总结版也行。 你说的这个标准不低哈。如果能行。很不错。

                    S 离线
                    S 离线
                    stxpnet
                    技术大牛 劳动模范
                    编写于 最后由 编辑
                    #9

                    @williamlouis 8694f2d8-28c8-41b7-8f6f-16566e28ba48-image.jpeg 我的意思是在180K上下文范围内。 deepseek flash给我的感觉就是很随意 ,速度快,但遵从性不高。
                    PRO不用说,是deepseek的当红产品,能力肯定必须在线。
                    我的配置是64G DDR4内存,24G RTX3090,目前开350瓦,在跑了快90K上下文时,生成速度大概还是50T/S左右 。

                    550b1cba-ccfc-4b3b-a387-8034b5e9593a-image.jpeg

                    1 条回复 最后回复
                    0
                    • S stxpnet

                      @c0aster 😧
                      模型似乎不行,我现在又换模型了:

                      hermes0621pm
                         killall llama-server 2>/dev/null; sleep 3
                               /data/model2/beellma616-kv.cpp/build/bin/llama-server \
                        -m  /data/models/Qwopus3.6-27B-v2-MTP-IQ4_XS.gguf \
                        -ngl 9999 --props \
                        -fa on --metrics  --ctx-size 168000 -n 16000  \
                        -ctk kvarn5 -ctv kvarn4 --kv-unified \
                        --spec-type mtp --spec-draft-n-max 3 \
                        --jinja --no-mmap --mlock -np 1   -b 2048 -ub 512 \
                        --host 0.0.0.0 --port 8025 \
                        --reasoning off \
                          --chat-template-kwargs '{"preserve_thinking":true}' \
                        --reasoning-format deepseek --reasoning-budget 768 \
                          --chat-template-file /data/model2/qwen3.6-27b-gguf/chat_template-Carnice27B-MTP-opt-v2.jinja \
                         --temp 0.72  --top-k 20 --top-p 0.87 --min-p 0.0  --presence-penalty 1.5 --repeat-penalty 1.0
                      
                      C 离线
                      C 离线
                      c0aster
                      编写于 最后由 编辑
                      #10

                      @stxpnet 那你现在这个配置,hermes反应快不,我的得等几分钟才开始干活

                      S 1 条回复 最后回复
                      0
                      • C c0aster

                        @stxpnet 那你现在这个配置,hermes反应快不,我的得等几分钟才开始干活

                        S 离线
                        S 离线
                        stxpnet
                        技术大牛 劳动模范
                        编写于 最后由 编辑
                        #11

                        @c0aster 为啥要等几分钟? 有问题建议让deepseek pro帮你排查吧,刚开始可能还是要交点学费的,后面跑顺了就好了。

                        1 条回复 最后回复
                        0
                        • C 离线
                          C 离线
                          c0aster
                          编写于 最后由 编辑
                          #12

                          分析是KV缓存没命中然后重新生成,并且hermes传了至少65K的上下文

                          S 1 条回复 最后回复
                          0
                          • C c0aster

                            分析是KV缓存没命中然后重新生成,并且hermes传了至少65K的上下文

                            S 离线
                            S 离线
                            stxpnet
                            技术大牛 劳动模范
                            编写于 最后由 编辑
                            #13

                            @c0aster 那有两种可能,你的skill太多。 另一种是记忆太爆满了,hermes为了更贴合你的需求,在给大模型发送的时候带上了太多至少 30K token,而且这些token之间的相关性不大,一旦进入LLM,就会无脑开始疯狂运算,如果你温度没放高一些的话。显卡就首次填充肯定要很长时间的。

                            1 条回复 最后回复
                            0

                            你好!看起来您对这段对话很感兴趣,但您还没有一个账号。

                            厌倦了每次访问都刷到同样的帖子?您注册账号后,您每次返回时都能精准定位到您上次浏览的位置,并可选择接收新回复通知(通过邮件或推送通知)。您还能收藏书签、为帖子顶,向社区成员表达您的欣赏。

                            有了你的建议,这篇帖子会更精彩哦 💗

                            注册 登录
                            回复
                            • 在新帖中回复
                            登录后回复
                            • 从旧到新
                            • 从新到旧
                            • 最多赞同


                            • 登录

                            • 没有帐号? 注册

                            • 第一个帖子
                              最后一个帖子
                            0
                            • 版块
                            • 最新
                            • 标签
                            • 热门
                            • 用户
                            • 群组