跳转至内容
  • 版块
  • 最新
  • 标签
  • 热门
  • 用户
  • 群组
皮肤
  • 浅色
  • Brite
  • Cerulean
  • Cosmo
  • Flatly
  • Journal
  • Litera
  • Lumen
  • Lux
  • Materia
  • Minty
  • Morph
  • Pulse
  • Sandstone
  • Simplex
  • Sketchy
  • Spacelab
  • United
  • Yeti
  • Zephyr
  • 深色
  • Cyborg
  • Darkly
  • Quartz
  • Slate
  • Solar
  • Superhero
  • Vapor

  • 默认(不使用皮肤)
  • 不使用皮肤
折叠
品牌标识

抡锤者

  1. 主页
  2. LLM讨论区
  3. RTX 3080 20GB 上以 256k / ~45 tk/s 运行 Qwen3.6-35B-A3B-Q4-K-M(ubuntu)

RTX 3080 20GB 上以 256k / ~45 tk/s 运行 Qwen3.6-35B-A3B-Q4-K-M(ubuntu)

已定时 已固定 已锁定 已移动 LLM讨论区
11 帖子 6 发布者 313 浏览
  • 从旧到新
  • 从新到旧
  • 最多赞同
回复
  • 在新帖中回复
登录后回复
此主题已被删除。只有拥有主题管理权限的用户可以查看。
  • S 离线
    S 离线
    simo9052
    编写于 最后由 编辑
    #1

    我基本上是按照这个视频中的方法操作的:
    https://www.youtube.com/watch?v=8F_5pdcD3HY
    我没有 1:1 完全复制,而是以此为主要参考并根据我自己的机器进行了调整。

    我目前的配置:

    GPU: RTX 3080 20GB

    RAM: 15 GB

    CPU: i3-10100F

    llama.cpp: turboquant 编译版本
    https://github.com/TheTom/llama-cpp-turboquant

    模型 (Model): Qwen3.6-35B-A3B-UD-Q4_K_M.gguf

    多模态组件 (mmproj): mmproj-F16.gguf

    上下文 (Context): 256k

    n-cpu-moe: 15

    cache-type-k: turbo4

    cache-type-v: turbo3

    flash-attn: 开启

    目前的结果:

    在 256k 上下文下运行稳定

    速度大约为 45 tok/s

    模型加载时间约为 5 分钟

    运行添加 mmproj 后,视觉功能也能正常工作
    beca22fc-40cd-4620-8b5d-87dca6e8d079-image.jpeg

    运行脚本:
    #!/usr/bin/env bash
    set -euo pipefail

    MODEL="/mnt/hdd_storage/models/llama.cpp/Qwen3.6-35B-A3B-UD-Q4_K_M.gguf"
    SERVER="/mnt/hdd_storage/llama.cpp-turboquant/repo/build/bin/llama-server"
    HOST="0.0.0.0"
    PORT="9999"
    CTX="262144"
    THREADS="6"
    THREADS_BATCH="6"
    BATCH="256"
    UBATCH="128"
    GPU_LAYERS="99"
    CPU_MOE="20"
    PARALLEL="2"
    CACHE_K="turbo4"
    CACHE_V="turbo3"
    MMPROJ="/mnt/hdd_storage/models/llama.cpp/mmproj-F16.gguf"
    REASONING_MODE="${REASONING_MODE:-off}"

    exec "$SERVER"
    --model "$MODEL"
    --host "$HOST"
    --port "$PORT"
    -ngl "$GPU_LAYERS"
    --n-cpu-moe "$CPU_MOE"
    -c "$CTX"
    -t "$THREADS"
    -tb "$THREADS_BATCH"
    -b "$BATCH"
    -ub "$UBATCH"
    -np "$PARALLEL"
    --cache-type-k "$CACHE_K"
    --cache-type-v "$CACHE_V"
    --mmproj "$MMPROJ"
    --flash-attn on
    --no-warmup
    --jinja
    --reasoning "$REASONING_MODE"

    我尝试了运行不同27B模型量化参数但是都不能稳定跑长上下文任务,经常OOM,想说各位老大有没有什么办法。

    TideT 1 条回复 最后回复
    2
    • terryT 在线
      terryT 在线
      terry
      编写于 最后由 编辑
      #2

      跑27b要全量推理,你显存不够。35b专家之外可以卸载到内存里。你3080 20G能跑到这个水平很牛了。

      油管:https://www.youtube.com/@抡锤者

      1 条回复 最后回复
      0
      • S simo9052

        我基本上是按照这个视频中的方法操作的:
        https://www.youtube.com/watch?v=8F_5pdcD3HY
        我没有 1:1 完全复制,而是以此为主要参考并根据我自己的机器进行了调整。

        我目前的配置:

        GPU: RTX 3080 20GB

        RAM: 15 GB

        CPU: i3-10100F

        llama.cpp: turboquant 编译版本
        https://github.com/TheTom/llama-cpp-turboquant

        模型 (Model): Qwen3.6-35B-A3B-UD-Q4_K_M.gguf

        多模态组件 (mmproj): mmproj-F16.gguf

        上下文 (Context): 256k

        n-cpu-moe: 15

        cache-type-k: turbo4

        cache-type-v: turbo3

        flash-attn: 开启

        目前的结果:

        在 256k 上下文下运行稳定

        速度大约为 45 tok/s

        模型加载时间约为 5 分钟

        运行添加 mmproj 后,视觉功能也能正常工作
        beca22fc-40cd-4620-8b5d-87dca6e8d079-image.jpeg

        运行脚本:
        #!/usr/bin/env bash
        set -euo pipefail

        MODEL="/mnt/hdd_storage/models/llama.cpp/Qwen3.6-35B-A3B-UD-Q4_K_M.gguf"
        SERVER="/mnt/hdd_storage/llama.cpp-turboquant/repo/build/bin/llama-server"
        HOST="0.0.0.0"
        PORT="9999"
        CTX="262144"
        THREADS="6"
        THREADS_BATCH="6"
        BATCH="256"
        UBATCH="128"
        GPU_LAYERS="99"
        CPU_MOE="20"
        PARALLEL="2"
        CACHE_K="turbo4"
        CACHE_V="turbo3"
        MMPROJ="/mnt/hdd_storage/models/llama.cpp/mmproj-F16.gguf"
        REASONING_MODE="${REASONING_MODE:-off}"

        exec "$SERVER"
        --model "$MODEL"
        --host "$HOST"
        --port "$PORT"
        -ngl "$GPU_LAYERS"
        --n-cpu-moe "$CPU_MOE"
        -c "$CTX"
        -t "$THREADS"
        -tb "$THREADS_BATCH"
        -b "$BATCH"
        -ub "$UBATCH"
        -np "$PARALLEL"
        --cache-type-k "$CACHE_K"
        --cache-type-v "$CACHE_V"
        --mmproj "$MMPROJ"
        --flash-attn on
        --no-warmup
        --jinja
        --reasoning "$REASONING_MODE"

        我尝试了运行不同27B模型量化参数但是都不能稳定跑长上下文任务,经常OOM,想说各位老大有没有什么办法。

        TideT 离线
        TideT 离线
        Tide
        编写于 最后由 编辑
        #3

        @simo9052 我准备抄你的作业👍 😁

        1 条回复 最后回复
        0
        • terryT terry 固定了该主题
        • 殷玉达殷 离线
          殷玉达殷 离线
          殷玉达
          编写于 最后由 编辑
          #4

          按3080的理论速度是可以到100以上啊

          1 条回复 最后回复
          0
          • 殷玉达殷 离线
            殷玉达殷 离线
            殷玉达
            编写于 最后由 编辑
            #5

            9548c98e-99da-497e-897c-38d79e660882-image.jpeg
            我是3080 20G OCULINK +3060 12G 雷电3 基本能跑到100左右

            1 条回复 最后回复
            1
            • 殷玉达殷 离线
              殷玉达殷 离线
              殷玉达
              编写于 最后由 编辑
              #6

              参数信息
              Qwen3.6-35B-A3B-MXFP4_MOE-MTP.gguf
              ctx=192K
              ngl=99
              并发=2
              GPU=3080+3060
              TS=70,30
              K=turbo3
              V=turbo3
              dK=turbo3
              dV=turbo3
              MTP=2
              b=1024
              ub=512
              FA=on
              t=8
              temp=0.7

              S 殷玉达殷 2 条回复 最后回复
              0
              • 殷玉达殷 殷玉达

                参数信息
                Qwen3.6-35B-A3B-MXFP4_MOE-MTP.gguf
                ctx=192K
                ngl=99
                并发=2
                GPU=3080+3060
                TS=70,30
                K=turbo3
                V=turbo3
                dK=turbo3
                dV=turbo3
                MTP=2
                b=1024
                ub=512
                FA=on
                t=8
                temp=0.7

                S 离线
                S 离线
                simo9052
                编写于 最后由 编辑
                #7

                @殷玉达 大佬可以分享一下用哪一個llama.cpp編譯版本嗎

                1 条回复 最后回复
                0
                • Hank WangH 离线
                  Hank WangH 离线
                  Hank Wang
                  编写于 最后由 编辑
                  #8

                  45 每秒太慢了.需要调。接Agent让它自动测试最高速度。

                  1 条回复 最后回复
                  0
                  • 殷玉达殷 殷玉达

                    参数信息
                    Qwen3.6-35B-A3B-MXFP4_MOE-MTP.gguf
                    ctx=192K
                    ngl=99
                    并发=2
                    GPU=3080+3060
                    TS=70,30
                    K=turbo3
                    V=turbo3
                    dK=turbo3
                    dV=turbo3
                    MTP=2
                    b=1024
                    ub=512
                    FA=on
                    t=8
                    temp=0.7

                    殷玉达殷 离线
                    殷玉达殷 离线
                    殷玉达
                    编写于 最后由 编辑
                    #9

                    殷玉达 说:

                    参数信息
                    Qwen3.6-35B-A3B-MXFP4_MOE-MTP.gguf
                    ctx=192K
                    ngl=99
                    并发=2
                    GPU=3080+3060
                    TS=70,30
                    K=turbo3
                    V=turbo3
                    dK=turbo3
                    dV=turbo3
                    MTP=2
                    b=1024
                    ub=512
                    FA=on
                    t=8
                    temp=0.7

                    官方turboquant还没合并分支,我自己合并的,测试了几天基本没什么bug,你可以试试,早上刚合并9222也正常

                    1 条回复 最后回复
                    0
                    • 殷玉达殷 离线
                      殷玉达殷 离线
                      殷玉达
                      编写于 最后由 编辑
                      #10

                      这两参数你调大一点
                      BATCH="512"
                      UBATCH="256"
                      ctx 128K或者64K
                      K V的压缩尽量统一参数 turbo3 就可以
                      20g很容易oom,可以去huggface找找小一点的包,没有MTP 35A3B性能就不错

                      1 条回复 最后回复
                      1
                      • V 离线
                        V 离线
                        vosrock
                        编写于 最后由 编辑
                        #11

                        我是同样的显卡,128K上下文带视觉的速度是120TK/S,跑27B速度64K上下文的速度是55TK/S,就是上下文小了点,其实速度是飞快的

                        1 条回复 最后回复
                        1
                        • 系统 取消固定了该主题

                        你好!看起来您对这段对话很感兴趣,但您还没有一个账号。

                        厌倦了每次访问都刷到同样的帖子?您注册账号后,您每次返回时都能精准定位到您上次浏览的位置,并可选择接收新回复通知(通过邮件或推送通知)。您还能收藏书签、为帖子顶,向社区成员表达您的欣赏。

                        有了你的建议,这篇帖子会更精彩哦 💗

                        注册 登录
                        回复
                        • 在新帖中回复
                        登录后回复
                        • 从旧到新
                        • 从新到旧
                        • 最多赞同


                        • 登录

                        • 没有帐号? 注册

                        • 登录或注册以进行搜索。
                        • 第一个帖子
                          最后一个帖子
                        0
                        • 版块
                        • 最新
                        • 标签
                        • 热门
                        • 用户
                        • 群组