跳转至内容
  • 版块
  • 最新
  • 标签
  • 热门
  • 用户
  • 群组
皮肤
  • 浅色
  • Brite
  • Cerulean
  • Cosmo
  • Flatly
  • Journal
  • Litera
  • Lumen
  • Lux
  • Materia
  • Minty
  • Morph
  • Pulse
  • Sandstone
  • Simplex
  • Sketchy
  • Spacelab
  • United
  • Yeti
  • Zephyr
  • 深色
  • Cyborg
  • Darkly
  • Quartz
  • Slate
  • Solar
  • Superhero
  • Vapor

  • 默认(不使用皮肤)
  • 不使用皮肤
折叠
品牌标识

抡锤者

  1. 主页
  2. AI Agent
  3. 3090显卡纯本地+Carnice v2 mtp: 驱动Hermes,算是进入这个时代了。

3090显卡纯本地+Carnice v2 mtp: 驱动Hermes,算是进入这个时代了。

已定时 已固定 已锁定 已移动 AI Agent
6 帖子 5 发布者 222 浏览 1 关注中
  • 从旧到新
  • 从新到旧
  • 最多赞同
回复
  • 在新帖中回复
登录后回复
此主题已被删除。只有拥有主题管理权限的用户可以查看。
  • S 离线
    S 离线
    stxpnet
    技术大牛 劳动模范
    编写于 最后由 编辑
    #1

    c1b1c2b0-cbc0-443a-831a-351052b9256b-image.jpeg
    模型用的这个,模型卡上已经说了carnice适配hermes要使用nmax=1,
    基本上是为了3090专门优化.

    使用bofan框架可以加载(我的未更新,不知道最新版会不会更好一点)。

    启动命令:

     killall llama-server 2>/dev/null; sleep 3
    cd /data/model2/bofan-llama.cpp/build/bin
    CUDA_SCALE_LAUNCH_QUEUES=4x \
    ./llama-server \
      -m /data/model3/Carnice-V2-27B-IQ4_XS-mtp.gguf \
      -ngl 9999 \
      -fa on --metrics  --ctx-size 163840 -n 16000  \
      -ctk q4_0 -ctv q4_0 --kv-unified \
      --spec-type mtp --spec-draft-n-max 1 \
      --jinja --no-mmap --mlock -np 1   -b 4096 -ub 1024 \
      --host 0.0.0.0 --port 8025 \
      --reasoning auto \
        --chat-template-kwargs '{"preserve_thinking":true}' \
      --reasoning-format deepseek --reasoning-budget 1024 \
       --temp 0.7  --top-k 20 --top-p 0.85 --min-p 0.0  --presence-penalty 1.5 --repeat-penalty 1.0
    

    模型已经内置了针对 Hermes的模板参数。
    跑一会儿之后显存占用在22.68G左右(无头还可再减400MB)。

    桌面端 远程连接到UBUNTU的HERMES,下达指令让它上网搜索资料解决实际问题。
    651420b5-2b7c-4076-9267-49a0798bb0b4-image.jpeg

    开局是45t/s,现在 37T/S,检查点也快占满了,估计 有80K tokens了。
    0a303f0d-3193-485e-8c8c-0dd0fcdfdd4e-image.jpeg

    J 1 条回复 最后回复
    0
    • S 离线
      S 离线
      stxpnet
      技术大牛 劳动模范
      编写于 最后由 编辑
      #2

      da236a7f-c313-4a2c-823e-9fd9536255e0-image.jpeg
      由于刚才过程中忘记把二奶机的QWEN 7B换成QWEN 9B,导致文本压缩 失败,窗口卡死了。 好在重新在终端打开Hermes,能继续完成任务。 这就是最后的效果。

      1 条回复 最后回复
      0
      • XiaoteX 在线
        XiaoteX 在线
        Xiaote
        劳动模范
        编写于 最后由 编辑
        #3

        @stxpnet 你这个Carnice V2配置挺扎实的,37 tok/s在3090上跑27B很不错了。

        关于二奶机忘记换模型导致卡死的问题,我分享两个小技巧:

        1. 给每个机器分配独立的端口:比如二奶机用8026,主力机用8025,这样Hermes的LLM_ENDPOINT指向哪个就是用哪个,不会搞混。

        2. 写个启动脚本做模型校验:在启动llama-server之前加一行检查,比如:

          if ! grep -q "Carnice" /data/model3/.model_name; then echo "模型不对!"; exit 1; fi
          

          手动跑的时候可能忘,但脚本不会忘。

        另外,你的--ctx-size 163840在3090的24G显存下能跑满吗?163K上下文+Carnice MTP,KV cache的占用估计不小。如果Hermes主要是对话场景,建议降到96K左右,能腾出更多显存给推理速度——我实测从128K降到96K,同模型能多3-4 tok/s。

        1 条回复 最后回复
        0
        • 南亚阿东南 离线
          南亚阿东南 离线
          南亚阿东
          编写于 最后由 编辑
          #4

          小白请教,感觉群里都喜欢用27B稠密 ,35B的MOE ,的hermes不好用吗?

          5 1 条回复 最后回复
          0
          • 南亚阿东南 南亚阿东

            小白请教,感觉群里都喜欢用27B稠密 ,35B的MOE ,的hermes不好用吗?

            5 离线
            5 离线
            566656661
            超凡大师
            编写于 最后由 编辑
            #5

            @南亚阿东

            很看你注重什麼吧

            思考深就上27B, 基本上我編程只用27B

            想要快就35BA3B, 這個相對而言更適合一般情況下Hermes的用法

            1 条回复 最后回复
            0
            • S stxpnet

              c1b1c2b0-cbc0-443a-831a-351052b9256b-image.jpeg
              模型用的这个,模型卡上已经说了carnice适配hermes要使用nmax=1,
              基本上是为了3090专门优化.

              使用bofan框架可以加载(我的未更新,不知道最新版会不会更好一点)。

              启动命令:

               killall llama-server 2>/dev/null; sleep 3
              cd /data/model2/bofan-llama.cpp/build/bin
              CUDA_SCALE_LAUNCH_QUEUES=4x \
              ./llama-server \
                -m /data/model3/Carnice-V2-27B-IQ4_XS-mtp.gguf \
                -ngl 9999 \
                -fa on --metrics  --ctx-size 163840 -n 16000  \
                -ctk q4_0 -ctv q4_0 --kv-unified \
                --spec-type mtp --spec-draft-n-max 1 \
                --jinja --no-mmap --mlock -np 1   -b 4096 -ub 1024 \
                --host 0.0.0.0 --port 8025 \
                --reasoning auto \
                  --chat-template-kwargs '{"preserve_thinking":true}' \
                --reasoning-format deepseek --reasoning-budget 1024 \
                 --temp 0.7  --top-k 20 --top-p 0.85 --min-p 0.0  --presence-penalty 1.5 --repeat-penalty 1.0
              

              模型已经内置了针对 Hermes的模板参数。
              跑一会儿之后显存占用在22.68G左右(无头还可再减400MB)。

              桌面端 远程连接到UBUNTU的HERMES,下达指令让它上网搜索资料解决实际问题。
              651420b5-2b7c-4076-9267-49a0798bb0b4-image.jpeg

              开局是45t/s,现在 37T/S,检查点也快占满了,估计 有80K tokens了。
              0a303f0d-3193-485e-8c8c-0dd0fcdfdd4e-image.jpeg

              J 离线
              J 离线
              johnnybegood
              德高望重 劳动模范
              编写于 最后由 编辑
              #6

              @stxpnet deepseek出了D-spark, 看看是不是更好

              1 条回复 最后回复
              0

              你好!看起来您对这段对话很感兴趣,但您还没有一个账号。

              厌倦了每次访问都刷到同样的帖子?您注册账号后,您每次返回时都能精准定位到您上次浏览的位置,并可选择接收新回复通知(通过邮件或推送通知)。您还能收藏书签、为帖子顶,向社区成员表达您的欣赏。

              有了你的建议,这篇帖子会更精彩哦 💗

              注册 登录
              回复
              • 在新帖中回复
              登录后回复
              • 从旧到新
              • 从新到旧
              • 最多赞同


              • 登录

              • 没有帐号? 注册

              • 第一个帖子
                最后一个帖子
              0
              • 版块
              • 最新
              • 标签
              • 热门
              • 用户
              • 群组