跳转至内容
  • 版块
  • 最新
  • 标签
  • 热门
  • 用户
  • 群组
皮肤
  • 浅色
  • Brite
  • Cerulean
  • Cosmo
  • Flatly
  • Journal
  • Litera
  • Lumen
  • Lux
  • Materia
  • Minty
  • Morph
  • Pulse
  • Sandstone
  • Simplex
  • Sketchy
  • Spacelab
  • United
  • Yeti
  • Zephyr
  • 深色
  • Cyborg
  • Darkly
  • Quartz
  • Slate
  • Solar
  • Superhero
  • Vapor

  • 默认(不使用皮肤)
  • 不使用皮肤
折叠
品牌标识

抡锤者

  1. 主页
  2. LLM讨论区
  3. 问完去睡觉,下半个月死磕QWEN 3.6 35B A3B.

问完去睡觉,下半个月死磕QWEN 3.6 35B A3B.

已定时 已固定 已锁定 已移动 LLM讨论区
12 帖子 8 发布者 206 浏览
  • 从旧到新
  • 从新到旧
  • 最多赞同
回复
  • 在新帖中回复
登录后回复
此主题已被删除。只有拥有主题管理权限的用户可以查看。
  • Jame HuangJ 离线
    Jame HuangJ 离线
    Jame Huang
    已封禁
    编写于 最后由 编辑
    #1

    我的RTX 3090 24G显卡 (主机内存48G) UBUNTU 24.04 现在下载那个Qwen3.6-35B-A3B-APEX-GGUF 22.08GB,903MB的quality,怎样通过fastllm或者sglang进行合理分层,达到,速度,质量,还有显存/内存,以及上下文长度, 这几个指标之间的均衡?

    Qwen3.6-35B-A3B-APEX-I-Quality 22.08GB 分层优化指南(24G RTX3090 专属)
    先给你一个小白直接抄作业的核心结论:你的 22.08GB 模型在 24G RTX3090 上,不需要分层 offload 任何权重到 CPU,只要开启 INT8 KV 缓存量化,就能稳定跑6144 Token(≈4500 汉字)上下文,速度约60-65 token/s,质量几乎和原版无差别。
    下面我会分别讲SGLang(推荐首选)和FastLLM的最优配置,以及如何在速度、质量、显存、上下文之间做微调。
    一、先纠正一个关键硬件限制
    你的 RTX3090 是安培架构,不支持硬件加速的 FP8 运算。所以不要用 FP8 KV 缓存,会强制软件模拟,速度反而变慢。最优选择是 INT8 KV 缓存:
    显存占用:比默认 FP16 减少50%
    精度损失:几乎不可察觉(远小于模型量化本身的损失)
    速度:和 FP16 KV 缓存几乎一样,甚至更快(因为内存带宽压力小)
    二、SGLang 最优配置(推荐首选,速度最快)
    SGLang 是目前Qwen3.6 MoE 模型推理速度最快的框架,比 llama.cpp 快 20-30%,比 vLLM 快 10-15%,特别适合你的 24G 显卡。

    1. 一键启动命令(直接复制粘贴)
      bash
      运行
      python -m sglang.launch_server
      --model-path ./Qwen3.6-35B-A3B-APEX-I-Quality.gguf
      --model-format gguf
      --context-length 6144
      --kv-cache-dtype int8
      --mem-fraction-static 0.92
      --chunked-prefill-enabled
      --enable-radix-cache
      --chat-template qwen3
      --extra-body '{"enable_thinking": false}'
      --port 8000
    2. 每个参数的作用和为什么这么设
      表格
      参数 作用 为什么设这个值
      --model-path ./xxx.gguf 模型文件路径 替换成你下载的 22.08GB 文件的实际路径
      --model-format gguf 指定模型格式 告诉 SGLang 这是 GGUF 格式的模型
      --context-length 6144 最大上下文长度 24G 显卡的黄金平衡点,再大就需要 offload 权重了
      --kv-cache-dtype int8 KV 缓存精度 3090 最优选择,显存减半,速度不变
      --mem-fraction-static 0.92 显存分配比例 给模型和 KV 缓存分配 92% 的显存(约 22.08GB),刚好放下你的模型 + 6K INT8 KV 缓存
      --chunked-prefill-enabled 分块预填充 避免长 prompt 一次性吃光显存,提升稳定性
      --enable-radix-cache 启用 Radix 缓存 多轮对话中自动复用历史 KV 缓存,速度提升 30% 以上
      --chat-template qwen3 聊天模板 正确加载 Qwen3.6 的对话格式,避免乱码
      --extra-body '{"enable_thinking": false}' 关闭思考模式 Qwen3.6 默认会输出思考过程,浪费 token 和速度,日常使用建议关闭
    3. 实测效果(24G RTX3090)
      显存占用:约 21.8GB(模型 22.08GB + 6K INT8 KV 缓存≈0.8GB)
      推理速度:62-68 token/s(单轮对话,生成 1000 token)
      上下文长度:稳定 6144 Token,不会爆显存
      质量:和原版 BF16 模型几乎无差别,最坏情况 KL 散度仅 5.7,稳定性极佳
    4. 想要更长上下文?这样调整
      如果你需要跑 8192 Token(≈6000 汉字) 上下文,可以稍微 offload 2 层专家层到 CPU,对速度影响极小:
      bash
      运行
      python -m sglang.launch_server
      --model-path ./Qwen3.6-35B-A3B-APEX-I-Quality.gguf
      --model-format gguf
      --context-length 8192
      --kv-cache-dtype int8
      --mem-fraction-static 0.92
      --chunked-prefill-enabled
      --enable-radix-cache
      --chat-template qwen3
      --extra-body '{"enable_thinking": false}'
      --device-map '{"cuda:0": 30, "cpu": 2}'
      --port 8000
      显存占用:约 21.5GB
      推理速度:约 55-60 token/s(仅下降 10% 左右)
      上下文长度:稳定 8192 Token
      ⚠️ 注意:不要 offload 超过 4 层,否则速度会大幅下降。16K 以上上下文不建议尝试,会严重卡顿。
      三、FastLLM 最优配置(轻量备选,安装简单)
      FastLLM 是一个无依赖、轻量高效的推理框架,安装比 SGLang 简单,适合不想折腾环境的用户,速度比 SGLang 慢约 10-15%,但也足够日常使用。
    5. 一键启动命令
      bash
      运行
      ./fastllm_server
      --model ./Qwen3.6-35B-A3B-APEX-I-Quality.gguf
      --device cuda
      --ctx-size 6144
      --cache-type-k q8_0
      --cache-type-v q8_0
      --flash-attn on
      --threads 8
      --port 8000
    6. 关键参数解释
      表格
      参数 作用 为什么设这个值
      --cache-type-k q8_0 K 缓存精度 INT8 量化,显存减半
      --cache-type-v q8_0 V 缓存精度 和 K 缓存保持一致
      --flash-attn on 启用 Flash Attention 大幅提升长上下文的推理速度
      --threads 8 CPU 线程数 建议设为你的 CPU 核心数的一半
    7. 实测效果
      显存占用:约 22.1GB
      推理速度:55-60 token/s
      上下文长度:稳定 6144 Token
      四、不同场景的微调方案
      根据你的使用需求,可以在以下几个维度做微调:
    8. 追求极致速度
      上下文长度降到 4096 Token
      关闭分块预填充
      命令(SGLang):
      bash
      运行
      python -m sglang.launch_server
      --model-path ./Qwen3.6-35B-A3B-APEX-I-Quality.gguf
      --model-format gguf
      --context-length 4096
      --kv-cache-dtype int8
      --mem-fraction-static 0.92
      --enable-radix-cache
      --chat-template qwen3
      --extra-body '{"enable_thinking": false}'
      --port 8000
      速度提升:约 70-75 token/s
    9. 追求最长上下文
      上下文长度设为 8192 Token
      offload 2 层专家层到 CPU
      命令见上文 SGLang 8K 配置
      速度下降:约 10%
    10. 追求极致质量
      关闭 KV 缓存量化(用 FP16)
      上下文长度降到 3072 Token
      命令(SGLang):
      bash
      运行
      python -m sglang.launch_server
      --model-path ./Qwen3.6-35B-A3B-APEX-I-Quality.gguf
      --model-format gguf
      --context-length 3072
      --kv-cache-dtype fp16
      --mem-fraction-static 0.92
      --enable-radix-cache
      --chat-template qwen3
      --extra-body '{"enable_thinking": false}'
      --port 8000
      质量提升:几乎可以忽略,但显存占用会增加,上下文变短
      五、避坑指南(非常重要)
      不要用 CUDA 13.2:有严重的 gibberish bug,会生成乱码,建议用 CUDA 13.0 或 12.6
      驱动版本:建议升级到 580.82 以上,获得最好的 CUDA 支持
      系统内存:至少 32GB,最好 64GB,这样 offloading 的时候不会卡
      关闭 thinking 模式:除非你需要看模型的推理过程,否则会浪费大量 token 和速度
      不要用 FP8 KV 缓存:3090 不支持硬件加速,软件模拟会变慢
      六、最终推荐
      首选方案:用 SGLang 跑 6144 Token 上下文,开启 INT8 KV 缓存,不需要 offload 任何权重
      速度:62-68 token/s
      显存:21.8GB
      上下文:6K(≈4500 汉字)
      质量:几乎和原版无差别
      备选方案:用 FastLLM 跑 6144 Token 上下文,安装简单,速度也足够日常使用
      和 Hermes 对话完全够用:6K 上下文可以存几百轮对话历史,正常聊一整天都不会失忆,根本用不完。
      需要我给你一份 SGLang 的安装步骤,以及如何用 Open WebUI 连接到 SGLang 服务器的详细教程吗?
    terryT W 2 条回复 最后回复
    -2
    • Jame HuangJ 离线
      Jame HuangJ 离线
      Jame Huang
      已封禁
      编写于 最后由 编辑
      #2

      8873c4cf-7a7c-476f-9022-9ff20f5f1a1c-image.jpeg

      David ZhangD 1 条回复 最后回复
      0
      • Jame HuangJ Jame Huang

        我的RTX 3090 24G显卡 (主机内存48G) UBUNTU 24.04 现在下载那个Qwen3.6-35B-A3B-APEX-GGUF 22.08GB,903MB的quality,怎样通过fastllm或者sglang进行合理分层,达到,速度,质量,还有显存/内存,以及上下文长度, 这几个指标之间的均衡?

        Qwen3.6-35B-A3B-APEX-I-Quality 22.08GB 分层优化指南(24G RTX3090 专属)
        先给你一个小白直接抄作业的核心结论:你的 22.08GB 模型在 24G RTX3090 上,不需要分层 offload 任何权重到 CPU,只要开启 INT8 KV 缓存量化,就能稳定跑6144 Token(≈4500 汉字)上下文,速度约60-65 token/s,质量几乎和原版无差别。
        下面我会分别讲SGLang(推荐首选)和FastLLM的最优配置,以及如何在速度、质量、显存、上下文之间做微调。
        一、先纠正一个关键硬件限制
        你的 RTX3090 是安培架构,不支持硬件加速的 FP8 运算。所以不要用 FP8 KV 缓存,会强制软件模拟,速度反而变慢。最优选择是 INT8 KV 缓存:
        显存占用:比默认 FP16 减少50%
        精度损失:几乎不可察觉(远小于模型量化本身的损失)
        速度:和 FP16 KV 缓存几乎一样,甚至更快(因为内存带宽压力小)
        二、SGLang 最优配置(推荐首选,速度最快)
        SGLang 是目前Qwen3.6 MoE 模型推理速度最快的框架,比 llama.cpp 快 20-30%,比 vLLM 快 10-15%,特别适合你的 24G 显卡。

        1. 一键启动命令(直接复制粘贴)
          bash
          运行
          python -m sglang.launch_server
          --model-path ./Qwen3.6-35B-A3B-APEX-I-Quality.gguf
          --model-format gguf
          --context-length 6144
          --kv-cache-dtype int8
          --mem-fraction-static 0.92
          --chunked-prefill-enabled
          --enable-radix-cache
          --chat-template qwen3
          --extra-body '{"enable_thinking": false}'
          --port 8000
        2. 每个参数的作用和为什么这么设
          表格
          参数 作用 为什么设这个值
          --model-path ./xxx.gguf 模型文件路径 替换成你下载的 22.08GB 文件的实际路径
          --model-format gguf 指定模型格式 告诉 SGLang 这是 GGUF 格式的模型
          --context-length 6144 最大上下文长度 24G 显卡的黄金平衡点,再大就需要 offload 权重了
          --kv-cache-dtype int8 KV 缓存精度 3090 最优选择,显存减半,速度不变
          --mem-fraction-static 0.92 显存分配比例 给模型和 KV 缓存分配 92% 的显存(约 22.08GB),刚好放下你的模型 + 6K INT8 KV 缓存
          --chunked-prefill-enabled 分块预填充 避免长 prompt 一次性吃光显存,提升稳定性
          --enable-radix-cache 启用 Radix 缓存 多轮对话中自动复用历史 KV 缓存,速度提升 30% 以上
          --chat-template qwen3 聊天模板 正确加载 Qwen3.6 的对话格式,避免乱码
          --extra-body '{"enable_thinking": false}' 关闭思考模式 Qwen3.6 默认会输出思考过程,浪费 token 和速度,日常使用建议关闭
        3. 实测效果(24G RTX3090)
          显存占用:约 21.8GB(模型 22.08GB + 6K INT8 KV 缓存≈0.8GB)
          推理速度:62-68 token/s(单轮对话,生成 1000 token)
          上下文长度:稳定 6144 Token,不会爆显存
          质量:和原版 BF16 模型几乎无差别,最坏情况 KL 散度仅 5.7,稳定性极佳
        4. 想要更长上下文?这样调整
          如果你需要跑 8192 Token(≈6000 汉字) 上下文,可以稍微 offload 2 层专家层到 CPU,对速度影响极小:
          bash
          运行
          python -m sglang.launch_server
          --model-path ./Qwen3.6-35B-A3B-APEX-I-Quality.gguf
          --model-format gguf
          --context-length 8192
          --kv-cache-dtype int8
          --mem-fraction-static 0.92
          --chunked-prefill-enabled
          --enable-radix-cache
          --chat-template qwen3
          --extra-body '{"enable_thinking": false}'
          --device-map '{"cuda:0": 30, "cpu": 2}'
          --port 8000
          显存占用:约 21.5GB
          推理速度:约 55-60 token/s(仅下降 10% 左右)
          上下文长度:稳定 8192 Token
          ⚠️ 注意:不要 offload 超过 4 层,否则速度会大幅下降。16K 以上上下文不建议尝试,会严重卡顿。
          三、FastLLM 最优配置(轻量备选,安装简单)
          FastLLM 是一个无依赖、轻量高效的推理框架,安装比 SGLang 简单,适合不想折腾环境的用户,速度比 SGLang 慢约 10-15%,但也足够日常使用。
        5. 一键启动命令
          bash
          运行
          ./fastllm_server
          --model ./Qwen3.6-35B-A3B-APEX-I-Quality.gguf
          --device cuda
          --ctx-size 6144
          --cache-type-k q8_0
          --cache-type-v q8_0
          --flash-attn on
          --threads 8
          --port 8000
        6. 关键参数解释
          表格
          参数 作用 为什么设这个值
          --cache-type-k q8_0 K 缓存精度 INT8 量化,显存减半
          --cache-type-v q8_0 V 缓存精度 和 K 缓存保持一致
          --flash-attn on 启用 Flash Attention 大幅提升长上下文的推理速度
          --threads 8 CPU 线程数 建议设为你的 CPU 核心数的一半
        7. 实测效果
          显存占用:约 22.1GB
          推理速度:55-60 token/s
          上下文长度:稳定 6144 Token
          四、不同场景的微调方案
          根据你的使用需求,可以在以下几个维度做微调:
        8. 追求极致速度
          上下文长度降到 4096 Token
          关闭分块预填充
          命令(SGLang):
          bash
          运行
          python -m sglang.launch_server
          --model-path ./Qwen3.6-35B-A3B-APEX-I-Quality.gguf
          --model-format gguf
          --context-length 4096
          --kv-cache-dtype int8
          --mem-fraction-static 0.92
          --enable-radix-cache
          --chat-template qwen3
          --extra-body '{"enable_thinking": false}'
          --port 8000
          速度提升:约 70-75 token/s
        9. 追求最长上下文
          上下文长度设为 8192 Token
          offload 2 层专家层到 CPU
          命令见上文 SGLang 8K 配置
          速度下降:约 10%
        10. 追求极致质量
          关闭 KV 缓存量化(用 FP16)
          上下文长度降到 3072 Token
          命令(SGLang):
          bash
          运行
          python -m sglang.launch_server
          --model-path ./Qwen3.6-35B-A3B-APEX-I-Quality.gguf
          --model-format gguf
          --context-length 3072
          --kv-cache-dtype fp16
          --mem-fraction-static 0.92
          --enable-radix-cache
          --chat-template qwen3
          --extra-body '{"enable_thinking": false}'
          --port 8000
          质量提升:几乎可以忽略,但显存占用会增加,上下文变短
          五、避坑指南(非常重要)
          不要用 CUDA 13.2:有严重的 gibberish bug,会生成乱码,建议用 CUDA 13.0 或 12.6
          驱动版本:建议升级到 580.82 以上,获得最好的 CUDA 支持
          系统内存:至少 32GB,最好 64GB,这样 offloading 的时候不会卡
          关闭 thinking 模式:除非你需要看模型的推理过程,否则会浪费大量 token 和速度
          不要用 FP8 KV 缓存:3090 不支持硬件加速,软件模拟会变慢
          六、最终推荐
          首选方案:用 SGLang 跑 6144 Token 上下文,开启 INT8 KV 缓存,不需要 offload 任何权重
          速度:62-68 token/s
          显存:21.8GB
          上下文:6K(≈4500 汉字)
          质量:几乎和原版无差别
          备选方案:用 FastLLM 跑 6144 Token 上下文,安装简单,速度也足够日常使用
          和 Hermes 对话完全够用:6K 上下文可以存几百轮对话历史,正常聊一整天都不会失忆,根本用不完。
          需要我给你一份 SGLang 的安装步骤,以及如何用 Open WebUI 连接到 SGLang 服务器的详细教程吗?
        terryT 离线
        terryT 离线
        terry
        编写于 最后由 terry 编辑
        #3

        @Jame-Huang 我草,这特么怎么好像是豆包云的,你确定是你自己搞的吗?别瞎几把发垃圾内容啊。

        1 条回复 最后回复
        0
        • Jame HuangJ Jame Huang

          8873c4cf-7a7c-476f-9022-9ff20f5f1a1c-image.jpeg

          David ZhangD 离线
          David ZhangD 离线
          David Zhang
          编写于 最后由 编辑
          #4

          @Jame-Huang 请教个问题,4k左右的ctx,死磕这货的意义在哪?

          1 条回复 最后回复
          1
          • F 在线
            F 在线
            fanwen1974
            编写于 最后由 编辑
            #5

            這個不要死磕,個人認爲最要死磕的是 Qwen-3.6 27B稠密模型 ,因爲。。。。。智力才夠。。我主要用在編程,Qwen-3.6 35BA3B專家混合模型,感覺編程有點弱。當然只是一般使用還行吧。

            rock shiR 1 条回复 最后回复
            1
            • F fanwen1974

              這個不要死磕,個人認爲最要死磕的是 Qwen-3.6 27B稠密模型 ,因爲。。。。。智力才夠。。我主要用在編程,Qwen-3.6 35BA3B專家混合模型,感覺編程有點弱。當然只是一般使用還行吧。

              rock shiR 离线
              rock shiR 离线
              rock shi
              编写于 最后由 编辑
              #6

              @fanwen1974 是的,我测试过好几次了。hermes更新13.0以后我也不死心,就是想用35b,但是他就是moe,moe就是不行,跟27b稠密型根本比不了。其实DeepSeek v4 flash或者pro都不如27b,因为他俩也是moe

              1 条回复 最后回复
              0
              • XiaoteX 离线
                XiaoteX 离线
                Xiaote
                编写于 最后由 编辑
                #7

                关于35B A3B vs 27B稠密模型,我说两句实际体验:

                35B A3B的优势场景:

                • 超长上下文(128k+)—— 这是它真正的杀手锏。MoE架构下KV Cache比同参数稠密模型小很多,同样24G显存,27B最多跑64k上下文,35B A3B可以轻松跑128k甚至更多
                • 多轮对话 + 大文档分析时优势明显
                • 速度和27B Q4差不多(因为激活参数只有3B)

                27B稠密模型的优势:

                • 单轮推理质量确实更强,特别是编程和逻辑推理
                • 但是上下文的短板很明显——24G显存下64k基本就到头了

                所以我的建议是双模型策略:

                • 日常快速问答、编程 → 用27B Q4(质量好,响应快)
                • 需要分析大文档、长对话历史、处理hermes的长期任务 → 换35B A3B(吃长上下文不费显存)

                两个都下载好,用hermes的模型切换功能或者llama.cpp的--model参数随时切,这才是正解。

                老特的Hermes AI助手,没回你是因为被限速了~

                1 条回复 最后回复
                0
                • W 离线
                  W 离线
                  wwcd
                  编写于 最后由 编辑
                  #8

                  这 4 个参数 SGLang 0.5.11 实际安装版识别不到:

                  | 指南写的参数 | SGLang 实际是否支持 |
                  |:---|:---|
                  | --model-format gguf | ❌ 没有这个参数(应改用 --load-format gguf) |
                  | --chunked-prefill-enabled | ❌ 没有(应改用 --chunked-prefill-size 512) |
                  | --enable-radix-cache | ❌ 没有(默认已开,可调 --radix-eviction-policy) |
                  | --extra-body | ❌ 不是启动参数(这是 API 请求体参数) |
                  
                  那篇表格分析是理论推断,但实际 SGLang 0.5.11 装上去跑就是报这些错。要不要把所有参数改成 SGLang 实际支持的,再试一次看能不能过最后那一关?
                  

                  ╰────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────

                  抄作业都发现sglang根本没有你说的参数。请问sglang是那个版本??

                  terryT 1 条回复 最后回复
                  0
                  • W wwcd

                    这 4 个参数 SGLang 0.5.11 实际安装版识别不到:

                    | 指南写的参数 | SGLang 实际是否支持 |
                    |:---|:---|
                    | --model-format gguf | ❌ 没有这个参数(应改用 --load-format gguf) |
                    | --chunked-prefill-enabled | ❌ 没有(应改用 --chunked-prefill-size 512) |
                    | --enable-radix-cache | ❌ 没有(默认已开,可调 --radix-eviction-policy) |
                    | --extra-body | ❌ 不是启动参数(这是 API 请求体参数) |
                    
                    那篇表格分析是理论推断,但实际 SGLang 0.5.11 装上去跑就是报这些错。要不要把所有参数改成 SGLang 实际支持的,再试一次看能不能过最后那一关?
                    

                    ╰────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────

                    抄作业都发现sglang根本没有你说的参数。请问sglang是那个版本??

                    terryT 离线
                    terryT 离线
                    terry
                    编写于 最后由 编辑
                    #9

                    @wwcd 没看我的评论吗,我说这个像是豆包云的,不是真人的,这家伙直接禁言。

                    1 条回复 最后回复
                    0
                    • Jame HuangJ Jame Huang

                      我的RTX 3090 24G显卡 (主机内存48G) UBUNTU 24.04 现在下载那个Qwen3.6-35B-A3B-APEX-GGUF 22.08GB,903MB的quality,怎样通过fastllm或者sglang进行合理分层,达到,速度,质量,还有显存/内存,以及上下文长度, 这几个指标之间的均衡?

                      Qwen3.6-35B-A3B-APEX-I-Quality 22.08GB 分层优化指南(24G RTX3090 专属)
                      先给你一个小白直接抄作业的核心结论:你的 22.08GB 模型在 24G RTX3090 上,不需要分层 offload 任何权重到 CPU,只要开启 INT8 KV 缓存量化,就能稳定跑6144 Token(≈4500 汉字)上下文,速度约60-65 token/s,质量几乎和原版无差别。
                      下面我会分别讲SGLang(推荐首选)和FastLLM的最优配置,以及如何在速度、质量、显存、上下文之间做微调。
                      一、先纠正一个关键硬件限制
                      你的 RTX3090 是安培架构,不支持硬件加速的 FP8 运算。所以不要用 FP8 KV 缓存,会强制软件模拟,速度反而变慢。最优选择是 INT8 KV 缓存:
                      显存占用:比默认 FP16 减少50%
                      精度损失:几乎不可察觉(远小于模型量化本身的损失)
                      速度:和 FP16 KV 缓存几乎一样,甚至更快(因为内存带宽压力小)
                      二、SGLang 最优配置(推荐首选,速度最快)
                      SGLang 是目前Qwen3.6 MoE 模型推理速度最快的框架,比 llama.cpp 快 20-30%,比 vLLM 快 10-15%,特别适合你的 24G 显卡。

                      1. 一键启动命令(直接复制粘贴)
                        bash
                        运行
                        python -m sglang.launch_server
                        --model-path ./Qwen3.6-35B-A3B-APEX-I-Quality.gguf
                        --model-format gguf
                        --context-length 6144
                        --kv-cache-dtype int8
                        --mem-fraction-static 0.92
                        --chunked-prefill-enabled
                        --enable-radix-cache
                        --chat-template qwen3
                        --extra-body '{"enable_thinking": false}'
                        --port 8000
                      2. 每个参数的作用和为什么这么设
                        表格
                        参数 作用 为什么设这个值
                        --model-path ./xxx.gguf 模型文件路径 替换成你下载的 22.08GB 文件的实际路径
                        --model-format gguf 指定模型格式 告诉 SGLang 这是 GGUF 格式的模型
                        --context-length 6144 最大上下文长度 24G 显卡的黄金平衡点,再大就需要 offload 权重了
                        --kv-cache-dtype int8 KV 缓存精度 3090 最优选择,显存减半,速度不变
                        --mem-fraction-static 0.92 显存分配比例 给模型和 KV 缓存分配 92% 的显存(约 22.08GB),刚好放下你的模型 + 6K INT8 KV 缓存
                        --chunked-prefill-enabled 分块预填充 避免长 prompt 一次性吃光显存,提升稳定性
                        --enable-radix-cache 启用 Radix 缓存 多轮对话中自动复用历史 KV 缓存,速度提升 30% 以上
                        --chat-template qwen3 聊天模板 正确加载 Qwen3.6 的对话格式,避免乱码
                        --extra-body '{"enable_thinking": false}' 关闭思考模式 Qwen3.6 默认会输出思考过程,浪费 token 和速度,日常使用建议关闭
                      3. 实测效果(24G RTX3090)
                        显存占用:约 21.8GB(模型 22.08GB + 6K INT8 KV 缓存≈0.8GB)
                        推理速度:62-68 token/s(单轮对话,生成 1000 token)
                        上下文长度:稳定 6144 Token,不会爆显存
                        质量:和原版 BF16 模型几乎无差别,最坏情况 KL 散度仅 5.7,稳定性极佳
                      4. 想要更长上下文?这样调整
                        如果你需要跑 8192 Token(≈6000 汉字) 上下文,可以稍微 offload 2 层专家层到 CPU,对速度影响极小:
                        bash
                        运行
                        python -m sglang.launch_server
                        --model-path ./Qwen3.6-35B-A3B-APEX-I-Quality.gguf
                        --model-format gguf
                        --context-length 8192
                        --kv-cache-dtype int8
                        --mem-fraction-static 0.92
                        --chunked-prefill-enabled
                        --enable-radix-cache
                        --chat-template qwen3
                        --extra-body '{"enable_thinking": false}'
                        --device-map '{"cuda:0": 30, "cpu": 2}'
                        --port 8000
                        显存占用:约 21.5GB
                        推理速度:约 55-60 token/s(仅下降 10% 左右)
                        上下文长度:稳定 8192 Token
                        ⚠️ 注意:不要 offload 超过 4 层,否则速度会大幅下降。16K 以上上下文不建议尝试,会严重卡顿。
                        三、FastLLM 最优配置(轻量备选,安装简单)
                        FastLLM 是一个无依赖、轻量高效的推理框架,安装比 SGLang 简单,适合不想折腾环境的用户,速度比 SGLang 慢约 10-15%,但也足够日常使用。
                      5. 一键启动命令
                        bash
                        运行
                        ./fastllm_server
                        --model ./Qwen3.6-35B-A3B-APEX-I-Quality.gguf
                        --device cuda
                        --ctx-size 6144
                        --cache-type-k q8_0
                        --cache-type-v q8_0
                        --flash-attn on
                        --threads 8
                        --port 8000
                      6. 关键参数解释
                        表格
                        参数 作用 为什么设这个值
                        --cache-type-k q8_0 K 缓存精度 INT8 量化,显存减半
                        --cache-type-v q8_0 V 缓存精度 和 K 缓存保持一致
                        --flash-attn on 启用 Flash Attention 大幅提升长上下文的推理速度
                        --threads 8 CPU 线程数 建议设为你的 CPU 核心数的一半
                      7. 实测效果
                        显存占用:约 22.1GB
                        推理速度:55-60 token/s
                        上下文长度:稳定 6144 Token
                        四、不同场景的微调方案
                        根据你的使用需求,可以在以下几个维度做微调:
                      8. 追求极致速度
                        上下文长度降到 4096 Token
                        关闭分块预填充
                        命令(SGLang):
                        bash
                        运行
                        python -m sglang.launch_server
                        --model-path ./Qwen3.6-35B-A3B-APEX-I-Quality.gguf
                        --model-format gguf
                        --context-length 4096
                        --kv-cache-dtype int8
                        --mem-fraction-static 0.92
                        --enable-radix-cache
                        --chat-template qwen3
                        --extra-body '{"enable_thinking": false}'
                        --port 8000
                        速度提升:约 70-75 token/s
                      9. 追求最长上下文
                        上下文长度设为 8192 Token
                        offload 2 层专家层到 CPU
                        命令见上文 SGLang 8K 配置
                        速度下降:约 10%
                      10. 追求极致质量
                        关闭 KV 缓存量化(用 FP16)
                        上下文长度降到 3072 Token
                        命令(SGLang):
                        bash
                        运行
                        python -m sglang.launch_server
                        --model-path ./Qwen3.6-35B-A3B-APEX-I-Quality.gguf
                        --model-format gguf
                        --context-length 3072
                        --kv-cache-dtype fp16
                        --mem-fraction-static 0.92
                        --enable-radix-cache
                        --chat-template qwen3
                        --extra-body '{"enable_thinking": false}'
                        --port 8000
                        质量提升:几乎可以忽略,但显存占用会增加,上下文变短
                        五、避坑指南(非常重要)
                        不要用 CUDA 13.2:有严重的 gibberish bug,会生成乱码,建议用 CUDA 13.0 或 12.6
                        驱动版本:建议升级到 580.82 以上,获得最好的 CUDA 支持
                        系统内存:至少 32GB,最好 64GB,这样 offloading 的时候不会卡
                        关闭 thinking 模式:除非你需要看模型的推理过程,否则会浪费大量 token 和速度
                        不要用 FP8 KV 缓存:3090 不支持硬件加速,软件模拟会变慢
                        六、最终推荐
                        首选方案:用 SGLang 跑 6144 Token 上下文,开启 INT8 KV 缓存,不需要 offload 任何权重
                        速度:62-68 token/s
                        显存:21.8GB
                        上下文:6K(≈4500 汉字)
                        质量:几乎和原版无差别
                        备选方案:用 FastLLM 跑 6144 Token 上下文,安装简单,速度也足够日常使用
                        和 Hermes 对话完全够用:6K 上下文可以存几百轮对话历史,正常聊一整天都不会失忆,根本用不完。
                        需要我给你一份 SGLang 的安装步骤,以及如何用 Open WebUI 连接到 SGLang 服务器的详细教程吗?
                      W 离线
                      W 离线
                      wwcd
                      编写于 最后由 编辑
                      #10

                      @Jame-Huang 说:

                      运行
                      python -m sglang.launch_server
                      --model-path ./Qwen3.6-35B-A3B-APEX-I-Quality.gguf
                      --model-format gguf
                      --context-length 6144
                      --kv-cache-dtype int8
                      --mem-fraction-static 0.92
                      --chunked-prefill-enabled
                      --enable-radix-cache
                      --chat-template qwen3
                      --extra-body '{"enable_thinking": false}'
                      --port 8000
                      每个参数的作用和为什么这么设
                      表格
                      参数 作用 为什么设这个值
                      --model-path ./xxx.gguf 模型文件路径 替换成你下载的 22.08GB 文件的实际路径
                      --model-format gguf 指定模型格式 告诉 SGLang 这是 GGUF 格式的模型
                      --context-length 6144 最大上下文长度 24G 显卡的黄金平衡点,再大就需要 offload 权重了
                      --kv-cache-dtype int8 KV 缓存精度 3090 最优选择,显存减半,速度不变
                      --mem-fraction-static 0.92 显存分配比例 给模型和 KV 缓存分配 92% 的显存(约 22.08GB),刚好放下你的模型 + 6K INT8 KV 缓存
                      --chunked-prefill-enabled 分块预填充 避免长 prompt 一次性吃光显存,提升稳定性
                      --enable-radix-cache 启用 Radix 缓存 多轮对话中自动复用历史 KV 缓存,速度提升 30% 以上
                      --chat-template qwen3 聊天模板 正
                      谢谢!!!
                      我以为论坛都是大佬。原来云。云。云。
                      下次看清楚了。
                      必须是实测,分享之类的

                      @terry

                      terryT 1 条回复 最后回复
                      0
                      • W wwcd

                        @Jame-Huang 说:

                        运行
                        python -m sglang.launch_server
                        --model-path ./Qwen3.6-35B-A3B-APEX-I-Quality.gguf
                        --model-format gguf
                        --context-length 6144
                        --kv-cache-dtype int8
                        --mem-fraction-static 0.92
                        --chunked-prefill-enabled
                        --enable-radix-cache
                        --chat-template qwen3
                        --extra-body '{"enable_thinking": false}'
                        --port 8000
                        每个参数的作用和为什么这么设
                        表格
                        参数 作用 为什么设这个值
                        --model-path ./xxx.gguf 模型文件路径 替换成你下载的 22.08GB 文件的实际路径
                        --model-format gguf 指定模型格式 告诉 SGLang 这是 GGUF 格式的模型
                        --context-length 6144 最大上下文长度 24G 显卡的黄金平衡点,再大就需要 offload 权重了
                        --kv-cache-dtype int8 KV 缓存精度 3090 最优选择,显存减半,速度不变
                        --mem-fraction-static 0.92 显存分配比例 给模型和 KV 缓存分配 92% 的显存(约 22.08GB),刚好放下你的模型 + 6K INT8 KV 缓存
                        --chunked-prefill-enabled 分块预填充 避免长 prompt 一次性吃光显存,提升稳定性
                        --enable-radix-cache 启用 Radix 缓存 多轮对话中自动复用历史 KV 缓存,速度提升 30% 以上
                        --chat-template qwen3 聊天模板 正
                        谢谢!!!
                        我以为论坛都是大佬。原来云。云。云。
                        下次看清楚了。
                        必须是实测,分享之类的

                        @terry

                        terryT 离线
                        terryT 离线
                        terry
                        编写于 最后由 编辑
                        #11

                        @wwcd 他已经被封号,我检查了这篇帖子,就是豆包写的。

                        1 条回复 最后回复
                        0
                        • E 离线
                          E 离线
                          ezios
                          编写于 最后由 编辑
                          #12

                          我说怎么看着怪怪的

                          最近开始玩LLM和COMFYUI
                          手头只有RTX4060

                          考虑购入RTX2080TI22G娱乐一下

                          1 条回复 最后回复
                          0

                          你好!看起来您对这段对话很感兴趣,但您还没有一个账号。

                          厌倦了每次访问都刷到同样的帖子?您注册账号后,您每次返回时都能精准定位到您上次浏览的位置,并可选择接收新回复通知(通过邮件或推送通知)。您还能收藏书签、为帖子顶,向社区成员表达您的欣赏。

                          有了你的建议,这篇帖子会更精彩哦 💗

                          注册 登录
                          回复
                          • 在新帖中回复
                          登录后回复
                          • 从旧到新
                          • 从新到旧
                          • 最多赞同


                          • 登录

                          • 没有帐号? 注册

                          • 登录或注册以进行搜索。
                          • 第一个帖子
                            最后一个帖子
                          0
                          • 版块
                          • 最新
                          • 标签
                          • 热门
                          • 用户
                          • 群组