跳转至内容
  • 版块
  • 最新
  • 标签
  • 热门
  • 用户
  • 群组
皮肤
  • 浅色
  • Brite
  • Cerulean
  • Cosmo
  • Flatly
  • Journal
  • Litera
  • Lumen
  • Lux
  • Materia
  • Minty
  • Morph
  • Pulse
  • Sandstone
  • Simplex
  • Sketchy
  • Spacelab
  • United
  • Yeti
  • Zephyr
  • 深色
  • Cyborg
  • Darkly
  • Quartz
  • Slate
  • Solar
  • Superhero
  • Vapor

  • 默认(不使用皮肤)
  • 不使用皮肤
折叠
品牌标识

抡锤者

  1. 主页
  2. LLM讨论区
  3. RTX 3080 20GB 上以 256k / ~45 tk/s 运行 Qwen3.6-35B-A3B-Q4-K-M(ubuntu)

RTX 3080 20GB 上以 256k / ~45 tk/s 运行 Qwen3.6-35B-A3B-Q4-K-M(ubuntu)

已定时 已固定 已锁定 已移动 LLM讨论区
12 帖子 7 发布者 509 浏览
  • 从旧到新
  • 从新到旧
  • 最多赞同
回复
  • 在新帖中回复
登录后回复
此主题已被删除。只有拥有主题管理权限的用户可以查看。
  • S simo9052

    我基本上是按照这个视频中的方法操作的:
    https://www.youtube.com/watch?v=8F_5pdcD3HY
    我没有 1:1 完全复制,而是以此为主要参考并根据我自己的机器进行了调整。

    我目前的配置:

    GPU: RTX 3080 20GB

    RAM: 15 GB

    CPU: i3-10100F

    llama.cpp: turboquant 编译版本
    https://github.com/TheTom/llama-cpp-turboquant

    模型 (Model): Qwen3.6-35B-A3B-UD-Q4_K_M.gguf

    多模态组件 (mmproj): mmproj-F16.gguf

    上下文 (Context): 256k

    n-cpu-moe: 15

    cache-type-k: turbo4

    cache-type-v: turbo3

    flash-attn: 开启

    目前的结果:

    在 256k 上下文下运行稳定

    速度大约为 45 tok/s

    模型加载时间约为 5 分钟

    运行添加 mmproj 后,视觉功能也能正常工作
    beca22fc-40cd-4620-8b5d-87dca6e8d079-image.jpeg

    运行脚本:
    #!/usr/bin/env bash
    set -euo pipefail

    MODEL="/mnt/hdd_storage/models/llama.cpp/Qwen3.6-35B-A3B-UD-Q4_K_M.gguf"
    SERVER="/mnt/hdd_storage/llama.cpp-turboquant/repo/build/bin/llama-server"
    HOST="0.0.0.0"
    PORT="9999"
    CTX="262144"
    THREADS="6"
    THREADS_BATCH="6"
    BATCH="256"
    UBATCH="128"
    GPU_LAYERS="99"
    CPU_MOE="20"
    PARALLEL="2"
    CACHE_K="turbo4"
    CACHE_V="turbo3"
    MMPROJ="/mnt/hdd_storage/models/llama.cpp/mmproj-F16.gguf"
    REASONING_MODE="${REASONING_MODE:-off}"

    exec "$SERVER"
    --model "$MODEL"
    --host "$HOST"
    --port "$PORT"
    -ngl "$GPU_LAYERS"
    --n-cpu-moe "$CPU_MOE"
    -c "$CTX"
    -t "$THREADS"
    -tb "$THREADS_BATCH"
    -b "$BATCH"
    -ub "$UBATCH"
    -np "$PARALLEL"
    --cache-type-k "$CACHE_K"
    --cache-type-v "$CACHE_V"
    --mmproj "$MMPROJ"
    --flash-attn on
    --no-warmup
    --jinja
    --reasoning "$REASONING_MODE"

    我尝试了运行不同27B模型量化参数但是都不能稳定跑长上下文任务,经常OOM,想说各位老大有没有什么办法。

    TideT 离线
    TideT 离线
    Tide
    发表于 最后由 编辑
    #3

    @simo9052 我准备抄你的作业👍 😁

    1 条回复 最后回复
    0
    • terryT terry 于 将此主题固定
    • 殷玉达殷 离线
      殷玉达殷 离线
      殷玉达
      发表于 最后由 编辑
      #4

      按3080的理论速度是可以到100以上啊

      1 条回复 最后回复
      0
      • 殷玉达殷 离线
        殷玉达殷 离线
        殷玉达
        发表于 最后由 编辑
        #5

        9548c98e-99da-497e-897c-38d79e660882-image.jpeg
        我是3080 20G OCULINK +3060 12G 雷电3 基本能跑到100左右

        1 条回复 最后回复
        1
        • 殷玉达殷 离线
          殷玉达殷 离线
          殷玉达
          发表于 最后由 编辑
          #6

          参数信息
          Qwen3.6-35B-A3B-MXFP4_MOE-MTP.gguf
          ctx=192K
          ngl=99
          并发=2
          GPU=3080+3060
          TS=70,30
          K=turbo3
          V=turbo3
          dK=turbo3
          dV=turbo3
          MTP=2
          b=1024
          ub=512
          FA=on
          t=8
          temp=0.7

          S 殷玉达殷 2 条回复 最后回复
          0
          • 殷玉达殷 殷玉达

            参数信息
            Qwen3.6-35B-A3B-MXFP4_MOE-MTP.gguf
            ctx=192K
            ngl=99
            并发=2
            GPU=3080+3060
            TS=70,30
            K=turbo3
            V=turbo3
            dK=turbo3
            dV=turbo3
            MTP=2
            b=1024
            ub=512
            FA=on
            t=8
            temp=0.7

            S 离线
            S 离线
            simo9052
            发表于 最后由 编辑
            #7

            @殷玉达 大佬可以分享一下用哪一個llama.cpp編譯版本嗎

            1 条回复 最后回复
            0
            • Hank WangH 离线
              Hank WangH 离线
              Hank Wang
              发表于 最后由 编辑
              #8

              45 每秒太慢了.需要调。接Agent让它自动测试最高速度。

              1 条回复 最后回复
              0
              • 殷玉达殷 殷玉达

                参数信息
                Qwen3.6-35B-A3B-MXFP4_MOE-MTP.gguf
                ctx=192K
                ngl=99
                并发=2
                GPU=3080+3060
                TS=70,30
                K=turbo3
                V=turbo3
                dK=turbo3
                dV=turbo3
                MTP=2
                b=1024
                ub=512
                FA=on
                t=8
                temp=0.7

                殷玉达殷 离线
                殷玉达殷 离线
                殷玉达
                发表于 最后由 编辑
                #9

                殷玉达 说:

                参数信息
                Qwen3.6-35B-A3B-MXFP4_MOE-MTP.gguf
                ctx=192K
                ngl=99
                并发=2
                GPU=3080+3060
                TS=70,30
                K=turbo3
                V=turbo3
                dK=turbo3
                dV=turbo3
                MTP=2
                b=1024
                ub=512
                FA=on
                t=8
                temp=0.7

                官方turboquant还没合并分支,我自己合并的,测试了几天基本没什么bug,你可以试试,早上刚合并9222也正常

                1 条回复 最后回复
                0
                • 殷玉达殷 离线
                  殷玉达殷 离线
                  殷玉达
                  发表于 最后由 编辑
                  #10

                  这两参数你调大一点
                  BATCH="512"
                  UBATCH="256"
                  ctx 128K或者64K
                  K V的压缩尽量统一参数 turbo3 就可以
                  20g很容易oom,可以去huggface找找小一点的包,没有MTP 35A3B性能就不错

                  1 条回复 最后回复
                  1
                  • V 离线
                    V 离线
                    vosrock
                    德高望重 劳动模范
                    发表于 最后由 编辑
                    #11

                    我是同样的显卡,128K上下文带视觉的速度是120TK/S,跑27B速度64K上下文的速度是55TK/S,就是上下文小了点,其实速度是飞快的

                    1 条回复 最后回复
                    1
                    • 系统 于 取消固定此主题
                    • F 离线
                      F 离线
                      flyps
                      编写于 最后由 编辑
                      #12

                      感谢分享~~!!!

                      1 条回复 最后回复
                      0

                      你好!看起来您对这段对话很感兴趣,但您还没有一个账号。

                      厌倦了每次访问都刷到同样的帖子?您注册账号后,您每次返回时都能精准定位到您上次浏览的位置,并可选择接收新回复通知(通过邮件或推送通知)。您还能收藏书签、为帖子顶,向社区成员表达您的欣赏。

                      有了你的建议,这篇帖子会更精彩哦 💗

                      注册 登录
                      回复
                      • 在新帖中回复
                      登录后回复
                      • 从旧到新
                      • 从新到旧
                      • 最多赞同


                      • 登录

                      • 没有帐号? 注册

                      • 第一个帖子
                        最后一个帖子
                      0
                      • 版块
                      • 最新
                      • 标签
                      • 热门
                      • 用户
                      • 群组