跳转至内容
  • 版块
  • 最新
  • 标签
  • 热门
  • 用户
  • 群组
皮肤
  • 浅色
  • Brite
  • Cerulean
  • Cosmo
  • Flatly
  • Journal
  • Litera
  • Lumen
  • Lux
  • Materia
  • Minty
  • Morph
  • Pulse
  • Sandstone
  • Simplex
  • Sketchy
  • Spacelab
  • United
  • Yeti
  • Zephyr
  • 深色
  • Cyborg
  • Darkly
  • Quartz
  • Slate
  • Solar
  • Superhero
  • Vapor

  • 默认(不使用皮肤)
  • 不使用皮肤
折叠
品牌标识

抡锤者

  1. 主页
  2. LLM讨论区
  3. RTX 2060 Super 8G 部署 Qwen3.6-35B-A3B 极限参数定稿报告

RTX 2060 Super 8G 部署 Qwen3.6-35B-A3B 极限参数定稿报告

已定时 已固定 已锁定 已移动 LLM讨论区
rtx2060
6 帖子 3 发布者 171 浏览
  • 从旧到新
  • 从新到旧
  • 最多赞同
回复
  • 在新帖中回复
登录后回复
此主题已被删除。只有拥有主题管理权限的用户可以查看。
  • williamlouisW 在线
    williamlouisW 在线
    williamlouis
    超级版主
    发表于 最后由 编辑
    #1

    不能有比这个 更LOW的配置了吧?没继续折腾hermes。测试后发现完全没有意思。硬件限制上不到16K 。上了也意义不大。折腾玩下。丰富下社区。
    亮点:这个是无限制模型。有兴趣的可以玩玩。
    一、测试环境

    项目 规格
    GPU NVIDIA GeForce RTX 2060 SUPER 8G (可用显存 7158 MiB)
    CPU Intel Core i7-4790K @ 4.0GHz
    内存 32 GB DDR3
    系统 Windows (WDDM 驱动模式)
    推理后端 llama.cpp b9374 (CUDA 12.4 x64)
    测试模型 Qwen3.6-35B-A3B-Uncensored-HauhauCS-Aggressive-IQ2_M.gguf

    二、测试目的

    验证 8G 显存消费级显卡在 Windows 环境下运行 35B MoE 大模型的可行性,并压榨出最大上下文长度与稳定生成速度的平衡点。


    三、测试过程与数据记录

    阶段 1:默认参数(失败)

    -ngl 80 -c 4096
    
    • 显存:逼近 8G 爆满
    • 现象:failed to fit params to free device memory,llama.cpp 自动回退
    • 速度:~7.5 t/s(显存爆满触发内存交换,断崖式下跌)
    • 结论:不可直接用默认参数硬塞

    阶段 2:MoE 专家路由优化(部分改善)

    -ngl 80 --n-cpu-moe 38 -c 4096
    
    • 显存:~2.5G(异常偏低)
    • 速度:~15 t/s
    • 问题:显存过低,说明 GPU 层数被过度削减,大量权重滞留 CPU 内存,速度瓶颈在内存带宽而非 GPU

    阶段 3:强制显存适配 + 降低 GPU 层数(关键突破)

    -ngl 30 --n-cpu-moe 20 -c 4096 -fit off
    
    • 显存:6.8G / 8G(余量 1.3G)
    • 速度:~15 t/s
    • 结论:-fit off 关闭自动适配后,30 层权重成功驻留显存,进入甜点区

    阶段 4:上下文扩容(最终定稿)

    -ngl 30 --n-cpu-moe 20 -c 8192 -fit off
    
    • 显存:7.0G / 8G(余量 1.1G)
    • 速度:~17 t/s
    • 结论:上下文从 4K 提升到 8K,显存仅增加 ~200MB,速度反而微升,达到最佳平衡点

    四、最终推荐配置(定稿)

    @echo off
    cd /d D:\llama-b9374-bin-win-cuda-12.4-x64
    llama-server.exe ^
      -m "models\Qwen3.6-35B-A3B-Uncensored-HauhauCS-Aggressive-IQ2_M.gguf" ^
      -ngl 30 ^
      --n-cpu-moe 20 ^
      -c 8192 ^
      -n 2048 ^
      --no-warmup ^
      -np 1 ^
      --host 127.0.0.1 ^
      --port 8080 ^
      -fit off
    pause
    

    五、关键结论

    1. 8G 显存跑 35B MoE 可行,但需精确调参

      • 不能无脑 -ngl 80,必须配合 -fit off 手动控制显存分配
      • --n-cpu-moe 是 8G 卡跑大 MoE 模型的核心参数,负责将非激活专家路由到系统内存
    2. 显存甜点区:6.5G ~ 7.2G

      • 低于 6G:GPU 层数不足,权重在 CPU,速度受限
      • 高于 7.5G:余量不足,Windows WDDM 驱动波动易导致爆显存断崖
    3. Windows WDDM 驱动占用不可忽视

      • 可用显存仅 7.1G 左右(8192 MiB 标称,实际空闲 7158 MiB)
      • 同配置在 Linux 下预计可多出 500MB~1G 可用显存,有望稳定 16K 上下文
    4. 上下文与速度并非完全负相关

      • 本例中 4K → 8K 上下文,速度从 15 t/s 微升至 17 t/s,说明之前 4K 时 GPU 利用率未吃满,8K 反而让流水线更饱和
    5. Qwen3.6-35B-A3B 的思考链(thinking)会消耗额外 token

      • 复杂 prompt 容易陷入长 reasoning 导致响应延迟
      • 建议前端 prompt 加前缀约束:"请直接回答,不要输出思考过程"

    六、使用注意事项

    • 运行时请勿同时运行大型游戏或视频剪辑软件,1.1G 余量经不起抢占
    • 长期稳定运行建议保持 -c 8192,不要尝试 16K(预估显存需求 8.5G+,必爆)
    • 如需更高速度,唯一出路是换显卡(显存 12G+)或迁移至 Linux 系统

    55b40bef-1be4-46ca-8da3-168d4bae0ead-image.jpeg
    94394cd6-6ad3-4939-8ab8-ce1f724c02d5-image.jpeg
    78c0cab3-e8ef-4fb2-95f1-62f3527afc17-image.jpeg

    个人主页:xlkj.org Telegram https://t.me/xlkjorg

    1 条回复 最后回复
    3
    • chencx1C 离线
      chencx1C 离线
      chencx1
      发表于 最后由 编辑
      #2

      这个好,可以拿6G显存的机子来玩玩了!

      1 条回复 最后回复
      0
      • AGIA 离线
        AGIA 离线
        AGI
        技术大牛 劳动模范
        发表于 最后由 AGI 编辑
        #3

        折腾劲很值得鼓励,但是意义不大!算是社区甜点了!值得有更大显存的继续折腾!这个社区精神就是折腾!

        https://agi.cd

        1 条回复 最后回复
        1
        • williamlouisW 在线
          williamlouisW 在线
          williamlouis
          超级版主
          发表于 最后由 编辑
          #4

          可以作为入学手办。跑通就OK了。了解各个参数都是控制什么的。还有模型的基本结构。这个老机器还在我这。有想法可以说。

          个人主页:xlkj.org Telegram https://t.me/xlkjorg

          AGIA 1 条回复 最后回复
          0
          • williamlouisW williamlouis

            可以作为入学手办。跑通就OK了。了解各个参数都是控制什么的。还有模型的基本结构。这个老机器还在我这。有想法可以说。

            AGIA 离线
            AGIA 离线
            AGI
            技术大牛 劳动模范
            发表于 最后由 编辑
            #5

            @williamlouis 对于你们是老机器,对于我说刚买的机器!哈哈。笔记本,24年买的,还是壮年啊。感谢lz给的方案,让小白也能折腾!论坛和社区精神所在!

            https://agi.cd

            1 条回复 最后回复
            0
            • williamlouisW 在线
              williamlouisW 在线
              williamlouis
              超级版主
              发表于 最后由 编辑
              #6

              而且这个无限版的。是完全解锁的。你可以研究作作 去马赛克啥的。我这台真是老机器。2014年的机器。。。。

              个人主页:xlkj.org Telegram https://t.me/xlkjorg

              1 条回复 最后回复
              0

              你好!看起来您对这段对话很感兴趣,但您还没有一个账号。

              厌倦了每次访问都刷到同样的帖子?您注册账号后,您每次返回时都能精准定位到您上次浏览的位置,并可选择接收新回复通知(通过邮件或推送通知)。您还能收藏书签、为帖子顶,向社区成员表达您的欣赏。

              有了你的建议,这篇帖子会更精彩哦 💗

              注册 登录
              回复
              • 在新帖中回复
              登录后回复
              • 从旧到新
              • 从新到旧
              • 最多赞同


              • 登录

              • 没有帐号? 注册

              • 第一个帖子
                最后一个帖子
              0
              • 版块
              • 最新
              • 标签
              • 热门
              • 用户
              • 群组