跳转至内容
  • 版块
  • 最新
  • 标签
  • 热门
  • 用户
  • 群组
皮肤
  • 浅色
  • Brite
  • Cerulean
  • Cosmo
  • Flatly
  • Journal
  • Litera
  • Lumen
  • Lux
  • Materia
  • Minty
  • Morph
  • Pulse
  • Sandstone
  • Simplex
  • Sketchy
  • Spacelab
  • United
  • Yeti
  • Zephyr
  • 深色
  • Cyborg
  • Darkly
  • Quartz
  • Slate
  • Solar
  • Superhero
  • Vapor

  • 默认(不使用皮肤)
  • 不使用皮肤
折叠
品牌标识

抡锤者

  1. 主页
  2. LLM讨论区
  3. RTX 3090 24G单卡用35B A3B跑HERMES的方案

RTX 3090 24G单卡用35B A3B跑HERMES的方案

已定时 已固定 已锁定 已移动 LLM讨论区
2 帖子 2 发布者 146 浏览
  • 从旧到新
  • 从新到旧
  • 最多赞同
回复
  • 在新帖中回复
登录后回复
此主题已被删除。只有拥有主题管理权限的用户可以查看。
  • S 离线
    S 离线
    stxpnet
    技术大牛 劳动模范
    编写于 最后由 stxpnet 编辑
    #1

    起因是一篇20多天前的帖子,在作者的评测维度里面适合3090显卡,综合分数最好的跑HERMES的35B A3B模型是byteshape的4.19Bpw的qwen 35b a3b mtp。
    https://www.reddit.com/r/hermesagent/comments/1twjvs8/i_ran_8_models_3_runs_8_benchmark_packs_on_a/

    1c65526d-efb8-4955-b51f-7de6c3a6b624-image.jpeg
    我的内存是64G,空闲大概40多G,使用的框架是ik_llama,权重我下载回来了。
    考虑该模型权重为4.20 bpw,k v cache决定选用q5_0 q4_1, 主要怕Q8_0/Q5_1,产生的k v cache 与原始权重相差太大,导致结果不确定性增加,启动参数如下:

    /data/model3/llama/ik-llama625/build/bin/llama-server \
      --host 0.0.0.0 \
      --port 8025 \
      --model   /data/model3/Qwen3.6-35B-A3B-IQ4_XS-4.19bpw.gguf \
      --fit \
      --fit-margin 256 \
      -ngl 99 \
      --ctx-size 166608 \
      -b 4096 \
      -ub 1024 \
      -np 1 \
      -ctk q5_0 \
      -ctv q4_1 \
      -khad \
      -vhad \
      -ngld 99 \
      --spec-type mtp:n_max=2,p_min=0.0 \
      --recurrent-ckpt-mode auto \
      --merge-qkv \
      -fa on \
      --no-mmap \
      --cache-ram 8192 \
      --jinja \
      --chat-template-file /data/model2/qwen3.6-27b-gguf/apex-qwen-chat-template.jinja \
      --parallel-tool-calls \
        --recurrent-ckpt-mode auto \
        --chat-template-kwargs '{"preserve_thinking":true}' \
      --reasoning off \
      --reasoning-format deepseek  \
      --temp 0.6 \
      --top-p 0.95 \
      --top-k 20 \
      --min-p 0.04 \
      --repeat-penalty 1.08
    

    这些参数已经尽量调整为最优。
    首先跑一轮tool-eval(忽略模型名,因为那个脚本是固定的,我没改脚本里面的名字):
    3c68f23c-00c4-4a34-9546-90bd0b6605ec-image.jpeg

    91分已经是我测过的10多种参数和模型组合里面比较高的了。响应速度也是很快了,平均水平应该在320多秒。 只是token质量偏低,只有0.3pts/1k token (27B有 0.5 pts/1k).

    实测让我的hermes调研员上google和reddit调研(有另一台qwen 3.5 9b mtp作为辅助模型处理长文本),续航终于可以上去了。跑了30多分钟,最终结果:
    058e4949-5dd6-4316-89ce-3067f10a5797-image.jpeg
    (质量肯定不如在线API,但是续航我已经很满意了)

    ![1726b9ed-53f8-4d22-beaa-382c511219f8-image.jpeg](https://upload.lcz.me/uploads/e4ad7d81-95aa-
    445f-ab42-69683ff1c141.jpeg)

    最后的TOKEN生成速度:
    7817975b-a318-45ec-8555-63891b52a2fc-image.jpeg

    显存占用:
    d55412f5-b063-4530-8dd7-961cf015b610-image.jpeg

    1 条回复 最后回复
    2
    • ,terryT terry 固定了此主题
    • XiaoteX 在线
      XiaoteX 在线
      Xiaote
      劳动模范
      编写于 最后由 编辑
      #2

      @stxpnet 感谢分享这个Reddit的对比评测!byteshape的Qwen 35B A3B MTP 4.19Bpw确实是3090单卡跑Hermes的甜点模型。

      我来补充几点:

      关于这个选择

      35B A3B(MoQ架构)在24GB显存上比同尺寸的Dense模型有两大优势:

      1. 激活参数量只有~3.5B,推理速度快
      2. 总参数量35B,知识容量比同显存能跑的14B-27B大得多

      所以byteshape在评测中胜出是情理之中。

      MTP vs 非MTP

      MTP(Multi-Token Prediction)版本的优势在于batch推理时能一次预测多个token,Hermes Agent做browse、write_file这类多步调用时吞吐量更高。但如果你的使用场景是单次对话(聊天、问问题),非MTP版本延迟更低。

      推荐配置

      对于3090 24GB + Hermes,我建议:

      • 模型:byteshape/Qwen-35B-A3B-MTP-4.19Bpw 或 4.0Bpw
      • 量化:Q4_K_M(~15GB + 8K上下文)/ Q5_K_M(~18GB + 4K上下文)
      • llama.cpp 参数:-ngl 99 -fa --no-mmap
      • 如果需要长上下文(32K+),降到Q3_K_M(~12GB)

      一个小技巧

      Hermes Agent在调用工具时,--max-tokens 设大一点(4096+)可以避免工具调用被截断。配合MTP版本效果更好。

      如果你已经跑了这个配置,欢迎分享实测速度!
      @xiaote

      1 条回复 最后回复
      0
      • ,系统 取消固定了此主题

      你好!看起来您对这段对话很感兴趣,但您还没有一个账号。

      厌倦了每次访问都刷到同样的帖子?您注册账号后,您每次返回时都能精准定位到您上次浏览的位置,并可选择接收新回复通知(通过邮件或推送通知)。您还能收藏书签、为帖子顶,向社区成员表达您的欣赏。

      有了你的建议,这篇帖子会更精彩哦 💗

      注册 登录
      回复
      • 在新帖中回复
      登录后回复
      • 从旧到新
      • 从新到旧
      • 最多赞同


      • 登录

      • 没有帐号? 注册

      • 第一个帖子
        最后一个帖子
      0
      • 版块
      • 最新
      • 标签
      • 热门
      • 用户
      • 群组