跳转至内容
  • 版块
  • 最新
  • 标签
  • 热门
  • 用户
  • 群组
皮肤
  • 浅色
  • Brite
  • Cerulean
  • Cosmo
  • Flatly
  • Journal
  • Litera
  • Lumen
  • Lux
  • Materia
  • Minty
  • Morph
  • Pulse
  • Sandstone
  • Simplex
  • Sketchy
  • Spacelab
  • United
  • Yeti
  • Zephyr
  • 深色
  • Cyborg
  • Darkly
  • Quartz
  • Slate
  • Solar
  • Superhero
  • Vapor

  • 默认(不使用皮肤)
  • 不使用皮肤
折叠
品牌标识

抡锤者

  1. 主页
  2. LLM讨论区
  3. RTX 3080 20GB 上以 256k / ~45 tk/s 运行 Qwen3.6-35B-A3B-Q4-K-M(ubuntu)

RTX 3080 20GB 上以 256k / ~45 tk/s 运行 Qwen3.6-35B-A3B-Q4-K-M(ubuntu)

已定时 置顶直到 2026/5/21 14:31 已锁定 已移动 LLM讨论区
3 帖子 3 发布者 59 浏览
  • 从旧到新
  • 从新到旧
  • 最多赞同
回复
  • 在新帖中回复
登录后回复
此主题已被删除。只有拥有主题管理权限的用户可以查看。
  • S 离线
    S 离线
    simo9052
    编写于 最后由 编辑
    #1

    我基本上是按照这个视频中的方法操作的:
    https://www.youtube.com/watch?v=8F_5pdcD3HY
    我没有 1:1 完全复制,而是以此为主要参考并根据我自己的机器进行了调整。

    我目前的配置:

    GPU: RTX 3080 20GB

    RAM: 15 GB

    CPU: i3-10100F

    llama.cpp: turboquant 编译版本
    https://github.com/TheTom/llama-cpp-turboquant

    模型 (Model): Qwen3.6-35B-A3B-UD-Q4_K_M.gguf

    多模态组件 (mmproj): mmproj-F16.gguf

    上下文 (Context): 256k

    n-cpu-moe: 15

    cache-type-k: turbo4

    cache-type-v: turbo3

    flash-attn: 开启

    目前的结果:

    在 256k 上下文下运行稳定

    速度大约为 45 tok/s

    模型加载时间约为 5 分钟

    运行添加 mmproj 后,视觉功能也能正常工作
    beca22fc-40cd-4620-8b5d-87dca6e8d079-image.jpeg

    运行脚本:
    #!/usr/bin/env bash
    set -euo pipefail

    MODEL="/mnt/hdd_storage/models/llama.cpp/Qwen3.6-35B-A3B-UD-Q4_K_M.gguf"
    SERVER="/mnt/hdd_storage/llama.cpp-turboquant/repo/build/bin/llama-server"
    HOST="0.0.0.0"
    PORT="9999"
    CTX="262144"
    THREADS="6"
    THREADS_BATCH="6"
    BATCH="256"
    UBATCH="128"
    GPU_LAYERS="99"
    CPU_MOE="20"
    PARALLEL="2"
    CACHE_K="turbo4"
    CACHE_V="turbo3"
    MMPROJ="/mnt/hdd_storage/models/llama.cpp/mmproj-F16.gguf"
    REASONING_MODE="${REASONING_MODE:-off}"

    exec "$SERVER"
    --model "$MODEL"
    --host "$HOST"
    --port "$PORT"
    -ngl "$GPU_LAYERS"
    --n-cpu-moe "$CPU_MOE"
    -c "$CTX"
    -t "$THREADS"
    -tb "$THREADS_BATCH"
    -b "$BATCH"
    -ub "$UBATCH"
    -np "$PARALLEL"
    --cache-type-k "$CACHE_K"
    --cache-type-v "$CACHE_V"
    --mmproj "$MMPROJ"
    --flash-attn on
    --no-warmup
    --jinja
    --reasoning "$REASONING_MODE"

    我尝试了运行不同27B模型量化参数但是都不能稳定跑长上下文任务,经常OOM,想说各位老大有没有什么办法。

    TideT 1 条回复 最后回复
    2
    • terryT 离线
      terryT 离线
      terry
      编写于 最后由 编辑
      #2

      跑27b要全量推理,你显存不够。35b专家之外可以卸载到内存里。你3080 20G能跑到这个水平很牛了。

      1 条回复 最后回复
      0
      • S simo9052

        我基本上是按照这个视频中的方法操作的:
        https://www.youtube.com/watch?v=8F_5pdcD3HY
        我没有 1:1 完全复制,而是以此为主要参考并根据我自己的机器进行了调整。

        我目前的配置:

        GPU: RTX 3080 20GB

        RAM: 15 GB

        CPU: i3-10100F

        llama.cpp: turboquant 编译版本
        https://github.com/TheTom/llama-cpp-turboquant

        模型 (Model): Qwen3.6-35B-A3B-UD-Q4_K_M.gguf

        多模态组件 (mmproj): mmproj-F16.gguf

        上下文 (Context): 256k

        n-cpu-moe: 15

        cache-type-k: turbo4

        cache-type-v: turbo3

        flash-attn: 开启

        目前的结果:

        在 256k 上下文下运行稳定

        速度大约为 45 tok/s

        模型加载时间约为 5 分钟

        运行添加 mmproj 后,视觉功能也能正常工作
        beca22fc-40cd-4620-8b5d-87dca6e8d079-image.jpeg

        运行脚本:
        #!/usr/bin/env bash
        set -euo pipefail

        MODEL="/mnt/hdd_storage/models/llama.cpp/Qwen3.6-35B-A3B-UD-Q4_K_M.gguf"
        SERVER="/mnt/hdd_storage/llama.cpp-turboquant/repo/build/bin/llama-server"
        HOST="0.0.0.0"
        PORT="9999"
        CTX="262144"
        THREADS="6"
        THREADS_BATCH="6"
        BATCH="256"
        UBATCH="128"
        GPU_LAYERS="99"
        CPU_MOE="20"
        PARALLEL="2"
        CACHE_K="turbo4"
        CACHE_V="turbo3"
        MMPROJ="/mnt/hdd_storage/models/llama.cpp/mmproj-F16.gguf"
        REASONING_MODE="${REASONING_MODE:-off}"

        exec "$SERVER"
        --model "$MODEL"
        --host "$HOST"
        --port "$PORT"
        -ngl "$GPU_LAYERS"
        --n-cpu-moe "$CPU_MOE"
        -c "$CTX"
        -t "$THREADS"
        -tb "$THREADS_BATCH"
        -b "$BATCH"
        -ub "$UBATCH"
        -np "$PARALLEL"
        --cache-type-k "$CACHE_K"
        --cache-type-v "$CACHE_V"
        --mmproj "$MMPROJ"
        --flash-attn on
        --no-warmup
        --jinja
        --reasoning "$REASONING_MODE"

        我尝试了运行不同27B模型量化参数但是都不能稳定跑长上下文任务,经常OOM,想说各位老大有没有什么办法。

        TideT 离线
        TideT 离线
        Tide
        编写于 最后由 编辑
        #3

        @simo9052 我准备抄你的作业👍 😁

        1 条回复 最后回复
        0
        • terryT terry 固定了该主题

        你好!看起来您对这段对话很感兴趣,但您还没有一个账号。

        厌倦了每次访问都刷到同样的帖子?您注册账号后,您每次返回时都能精准定位到您上次浏览的位置,并可选择接收新回复通知(通过邮件或推送通知)。您还能收藏书签、为帖子顶,向社区成员表达您的欣赏。

        有了你的建议,这篇帖子会更精彩哦 💗

        注册 登录
        回复
        • 在新帖中回复
        登录后回复
        • 从旧到新
        • 从新到旧
        • 最多赞同


        • 登录

        • 没有帐号? 注册

        • 登录或注册以进行搜索。
        • 第一个帖子
          最后一个帖子
        0
        • 版块
        • 最新
        • 标签
        • 热门
        • 用户
        • 群组