跳转至内容
  • 版块
  • 最新
  • 标签
  • 热门
  • 用户
  • 群组
皮肤
  • 浅色
  • Brite
  • Cerulean
  • Cosmo
  • Flatly
  • Journal
  • Litera
  • Lumen
  • Lux
  • Materia
  • Minty
  • Morph
  • Pulse
  • Sandstone
  • Simplex
  • Sketchy
  • Spacelab
  • United
  • Yeti
  • Zephyr
  • 深色
  • Cyborg
  • Darkly
  • Quartz
  • Slate
  • Solar
  • Superhero
  • Vapor

  • 默认(不使用皮肤)
  • 不使用皮肤
折叠
品牌标识

抡锤者

  1. 主页
  2. LLM讨论区
  3. RTX 3080 20GB 上以 256k / ~45 tk/s 运行 Qwen3.6-35B-A3B-Q4-K-M(ubuntu)

RTX 3080 20GB 上以 256k / ~45 tk/s 运行 Qwen3.6-35B-A3B-Q4-K-M(ubuntu)

已定时 已固定 已锁定 已移动 LLM讨论区
11 帖子 6 发布者 312 浏览
  • 从旧到新
  • 从新到旧
  • 最多赞同
回复
  • 在新帖中回复
登录后回复
此主题已被删除。只有拥有主题管理权限的用户可以查看。
  • terryT 离线
    terryT 离线
    terry
    编写于 最后由 编辑
    #2

    跑27b要全量推理,你显存不够。35b专家之外可以卸载到内存里。你3080 20G能跑到这个水平很牛了。

    油管:https://www.youtube.com/@抡锤者

    1 条回复 最后回复
    0
    • S simo9052

      我基本上是按照这个视频中的方法操作的:
      https://www.youtube.com/watch?v=8F_5pdcD3HY
      我没有 1:1 完全复制,而是以此为主要参考并根据我自己的机器进行了调整。

      我目前的配置:

      GPU: RTX 3080 20GB

      RAM: 15 GB

      CPU: i3-10100F

      llama.cpp: turboquant 编译版本
      https://github.com/TheTom/llama-cpp-turboquant

      模型 (Model): Qwen3.6-35B-A3B-UD-Q4_K_M.gguf

      多模态组件 (mmproj): mmproj-F16.gguf

      上下文 (Context): 256k

      n-cpu-moe: 15

      cache-type-k: turbo4

      cache-type-v: turbo3

      flash-attn: 开启

      目前的结果:

      在 256k 上下文下运行稳定

      速度大约为 45 tok/s

      模型加载时间约为 5 分钟

      运行添加 mmproj 后,视觉功能也能正常工作
      beca22fc-40cd-4620-8b5d-87dca6e8d079-image.jpeg

      运行脚本:
      #!/usr/bin/env bash
      set -euo pipefail

      MODEL="/mnt/hdd_storage/models/llama.cpp/Qwen3.6-35B-A3B-UD-Q4_K_M.gguf"
      SERVER="/mnt/hdd_storage/llama.cpp-turboquant/repo/build/bin/llama-server"
      HOST="0.0.0.0"
      PORT="9999"
      CTX="262144"
      THREADS="6"
      THREADS_BATCH="6"
      BATCH="256"
      UBATCH="128"
      GPU_LAYERS="99"
      CPU_MOE="20"
      PARALLEL="2"
      CACHE_K="turbo4"
      CACHE_V="turbo3"
      MMPROJ="/mnt/hdd_storage/models/llama.cpp/mmproj-F16.gguf"
      REASONING_MODE="${REASONING_MODE:-off}"

      exec "$SERVER"
      --model "$MODEL"
      --host "$HOST"
      --port "$PORT"
      -ngl "$GPU_LAYERS"
      --n-cpu-moe "$CPU_MOE"
      -c "$CTX"
      -t "$THREADS"
      -tb "$THREADS_BATCH"
      -b "$BATCH"
      -ub "$UBATCH"
      -np "$PARALLEL"
      --cache-type-k "$CACHE_K"
      --cache-type-v "$CACHE_V"
      --mmproj "$MMPROJ"
      --flash-attn on
      --no-warmup
      --jinja
      --reasoning "$REASONING_MODE"

      我尝试了运行不同27B模型量化参数但是都不能稳定跑长上下文任务,经常OOM,想说各位老大有没有什么办法。

      TideT 离线
      TideT 离线
      Tide
      编写于 最后由 编辑
      #3

      @simo9052 我准备抄你的作业👍 😁

      1 条回复 最后回复
      0
      • terryT terry 固定了该主题
      • 殷玉达殷 离线
        殷玉达殷 离线
        殷玉达
        编写于 最后由 编辑
        #4

        按3080的理论速度是可以到100以上啊

        1 条回复 最后回复
        0
        • 殷玉达殷 离线
          殷玉达殷 离线
          殷玉达
          编写于 最后由 编辑
          #5

          9548c98e-99da-497e-897c-38d79e660882-image.jpeg
          我是3080 20G OCULINK +3060 12G 雷电3 基本能跑到100左右

          1 条回复 最后回复
          1
          • 殷玉达殷 离线
            殷玉达殷 离线
            殷玉达
            编写于 最后由 编辑
            #6

            参数信息
            Qwen3.6-35B-A3B-MXFP4_MOE-MTP.gguf
            ctx=192K
            ngl=99
            并发=2
            GPU=3080+3060
            TS=70,30
            K=turbo3
            V=turbo3
            dK=turbo3
            dV=turbo3
            MTP=2
            b=1024
            ub=512
            FA=on
            t=8
            temp=0.7

            S 殷玉达殷 2 条回复 最后回复
            0
            • 殷玉达殷 殷玉达

              参数信息
              Qwen3.6-35B-A3B-MXFP4_MOE-MTP.gguf
              ctx=192K
              ngl=99
              并发=2
              GPU=3080+3060
              TS=70,30
              K=turbo3
              V=turbo3
              dK=turbo3
              dV=turbo3
              MTP=2
              b=1024
              ub=512
              FA=on
              t=8
              temp=0.7

              S 离线
              S 离线
              simo9052
              编写于 最后由 编辑
              #7

              @殷玉达 大佬可以分享一下用哪一個llama.cpp編譯版本嗎

              1 条回复 最后回复
              0
              • Hank WangH 离线
                Hank WangH 离线
                Hank Wang
                编写于 最后由 编辑
                #8

                45 每秒太慢了.需要调。接Agent让它自动测试最高速度。

                1 条回复 最后回复
                0
                • 殷玉达殷 殷玉达

                  参数信息
                  Qwen3.6-35B-A3B-MXFP4_MOE-MTP.gguf
                  ctx=192K
                  ngl=99
                  并发=2
                  GPU=3080+3060
                  TS=70,30
                  K=turbo3
                  V=turbo3
                  dK=turbo3
                  dV=turbo3
                  MTP=2
                  b=1024
                  ub=512
                  FA=on
                  t=8
                  temp=0.7

                  殷玉达殷 离线
                  殷玉达殷 离线
                  殷玉达
                  编写于 最后由 编辑
                  #9

                  殷玉达 说:

                  参数信息
                  Qwen3.6-35B-A3B-MXFP4_MOE-MTP.gguf
                  ctx=192K
                  ngl=99
                  并发=2
                  GPU=3080+3060
                  TS=70,30
                  K=turbo3
                  V=turbo3
                  dK=turbo3
                  dV=turbo3
                  MTP=2
                  b=1024
                  ub=512
                  FA=on
                  t=8
                  temp=0.7

                  官方turboquant还没合并分支,我自己合并的,测试了几天基本没什么bug,你可以试试,早上刚合并9222也正常

                  1 条回复 最后回复
                  0
                  • 殷玉达殷 离线
                    殷玉达殷 离线
                    殷玉达
                    编写于 最后由 编辑
                    #10

                    这两参数你调大一点
                    BATCH="512"
                    UBATCH="256"
                    ctx 128K或者64K
                    K V的压缩尽量统一参数 turbo3 就可以
                    20g很容易oom,可以去huggface找找小一点的包,没有MTP 35A3B性能就不错

                    1 条回复 最后回复
                    1
                    • V 离线
                      V 离线
                      vosrock
                      编写于 最后由 编辑
                      #11

                      我是同样的显卡,128K上下文带视觉的速度是120TK/S,跑27B速度64K上下文的速度是55TK/S,就是上下文小了点,其实速度是飞快的

                      1 条回复 最后回复
                      1
                      • 系统 取消固定了该主题

                      你好!看起来您对这段对话很感兴趣,但您还没有一个账号。

                      厌倦了每次访问都刷到同样的帖子?您注册账号后,您每次返回时都能精准定位到您上次浏览的位置,并可选择接收新回复通知(通过邮件或推送通知)。您还能收藏书签、为帖子顶,向社区成员表达您的欣赏。

                      有了你的建议,这篇帖子会更精彩哦 💗

                      注册 登录
                      回复
                      • 在新帖中回复
                      登录后回复
                      • 从旧到新
                      • 从新到旧
                      • 最多赞同


                      • 登录

                      • 没有帐号? 注册

                      • 登录或注册以进行搜索。
                      • 第一个帖子
                        最后一个帖子
                      0
                      • 版块
                      • 最新
                      • 标签
                      • 热门
                      • 用户
                      • 群组