跳转至内容
  • 版块
  • 最新
  • 标签
  • 热门
  • 用户
  • 群组
皮肤
  • 浅色
  • Brite
  • Cerulean
  • Cosmo
  • Flatly
  • Journal
  • Litera
  • Lumen
  • Lux
  • Materia
  • Minty
  • Morph
  • Pulse
  • Sandstone
  • Simplex
  • Sketchy
  • Spacelab
  • United
  • Yeti
  • Zephyr
  • 深色
  • Cyborg
  • Darkly
  • Quartz
  • Slate
  • Solar
  • Superhero
  • Vapor

  • 默认(不使用皮肤)
  • 不使用皮肤
折叠
品牌标识

抡锤者

  1. 主页
  2. AI硬件
  3. 双 3090(NVLink)跑 Qwen3.6-27B,128K 上下文实测

双 3090(NVLink)跑 Qwen3.6-27B,128K 上下文实测

已定时 已固定 已锁定 已移动 AI硬件
nvidiartx3090multi-gpu
21 帖子 8 发布者 422 浏览 1 关注中
  • 从旧到新
  • 从新到旧
  • 最多赞同
回复
  • 在新帖中回复
登录后回复
此主题已被删除。只有拥有主题管理权限的用户可以查看。
  • D 离线
    D 离线
    davidwei0826
    编写于 最后由 davidwei0826 编辑
    #12

    双卡3090 vLLM跑Qwen3.6-27B,强烈建议关注: https://github.com/noonghunna/club-3090 。
    我自己的环境: 双卡3090 nvlink,模型Qwen3.6-27B-autoround-int4。 kv cache fp8_e5m2量化, 上下文长度 262144 。采用 dual-mtp 的vllm运行参数和测试脚本(soak-test.sh), p50_decode_tps:61.34;p95_ttft_ms:4864 。
    官方给的测试,应该能到接近70tps,我的还有优化空间,但是能用了就没折腾,参考DUAL_CARD.md。
    num_speculative_tokens我测了2,3,4,5。效果上3最好。

    启动脚本:

    root@NV-AI-3090Dual2:~# cat vllm.qwen3.6-27b.sh 
    #!/bin/bash
    source /root/.bashrc
    source /root/venv/bin/activate
    # vLLM 启动脚本 — Qwen3.6-27B-AutoRound-INT4
    # 用法: bash start-vllm-qwen3.6.sh [TP] [PP]
    #   TP: tensor-parallel size,默认 2
    #   PP: pipeline-parallel size,默认 1
    
    set -e
    
    # ========== 参数 ==========
    TP="${1:-${TP:-2}}"
    PP="${2:-${PP:-1}}"
    MODEL_PATH="/root/models/qwen3.6-27b-autoround-int4"
    PORT="${PORT:-8000}"
    HOST="${HOST:-0.0.0.0}"
    MAX_MODEL_LEN="${MAX_MODEL_LEN:-262144}"
    GPU_MEM_UTIL="${GPU_MEMORY_UTILIZATION:-0.92}"
    KV_CACHE_DTYPE="${KV_CACHE_DTYPE:-fp8_e5m2}"
    TEMP="${TEMP:-${TEMPERATURE:-0.6}}"
    TOP_P="${TOP_P:-0.95}"
    TOP_K="${TOP_K:-20}"
    MIN_P="${MIN_P:-0.0}"
    REPEAT_PENALTY="${REPEAT_PENALTY:-1.0}"
    
    # speculative decoding
    SPECULATIVE_CONFIG='{"method":"mtp","num_speculative_tokens":3}'
    
    # 推理模板参数(关闭 thinking)
    CHAT_TEMPLATE_KWARGS='{"enable_thinking": false}'
    
    # ========== 环境变量 ==========
    export NVIDIA_VISIBLE_DEVICES="${NVIDIA_VISIBLE_DEVICES:-all}"
    export HUGGING_FACE_HUB_TOKEN="${HF_TOKEN:-}"
    export VLLM_WORKER_MULTIPROC_METHOD=spawn
    export NCCL_CUMEM_ENABLE=0
    export NCCL_P2P_DISABLE=0
    export VLLM_NO_USAGE_STATS=1
    export VLLM_USE_FLASHINFER_SAMPLER=1
    export OMP_NUM_THREADS=1
    export PYTORCH_CUDA_ALLOC_CONF="expandable_segments:True,max_split_size_mb:512"
    
    # NVLink 检测(自行补充 detect_nvlink.sh 逻辑,或删掉这两行)
    # source /etc/club3090/detect_nvlink.sh
    # _NVLINK_ENABLED=0  # 手动设置:0=无NVLink, 1=NvLink开启
    
    # ========== 构建命令 ==========
    ARGS=(
        --model "$MODEL_PATH"
        --served-model-name qwen3.6-27b-autoround
        --quantization auto_round
        --dtype float16
        --tensor-parallel-size "$TP"
        --pipeline-parallel-size "$PP"
        --max-model-len "$MAX_MODEL_LEN"
        --gpu-memory-utilization "$GPU_MEM_UTIL"
        --max-num-seqs 2
        --max-num-batched-tokens 8192
        --kv-cache-dtype "$KV_CACHE_DTYPE"
        --trust-remote-code
      #  --chat-template "${CHAT_TEMPLATE}"      # 没有自定义模板文件则删除此行
        --reasoning-parser qwen3
        --default-chat-template-kwargs "$CHAT_TEMPLATE_KWARGS"
        --enable-auto-tool-choice
        --tool-call-parser qwen3_coder
        --enable-prefix-caching
        --enable-chunked-prefill
        --disable-custom-all-reduce
        --speculative-config "$SPECULATIVE_CONFIG"
        --override-generation-config "{\"temperature\":${TEMP},\"top_p\":${TOP_P},\"top_k\":${TOP_K},\"min_p\":${MIN_P},\"repetition_penalty\":${REPEAT_PENALTY}}"
        --host "$HOST"
        --port "$PORT"
    )
    
    echo "=========================================="
    echo "启动 vLLM | TP=$TP PP=$PP | $MODEL_PATH"
    echo "=========================================="
    echo "命令: vllm serve ${ARGS[*]}"
    echo ""
    
    exec vllm serve "${ARGS[@]}"
    deactivate
    

    690b1b73-3362-480f-aa88-ced512707a88-image.jpeg

    8ce14e76-e0ca-4006-860e-74f7f52ad455-image.jpeg

    A 1 条回复 最后回复
    2
    • D davidwei0826

      双卡3090 vLLM跑Qwen3.6-27B,强烈建议关注: https://github.com/noonghunna/club-3090 。
      我自己的环境: 双卡3090 nvlink,模型Qwen3.6-27B-autoround-int4。 kv cache fp8_e5m2量化, 上下文长度 262144 。采用 dual-mtp 的vllm运行参数和测试脚本(soak-test.sh), p50_decode_tps:61.34;p95_ttft_ms:4864 。
      官方给的测试,应该能到接近70tps,我的还有优化空间,但是能用了就没折腾,参考DUAL_CARD.md。
      num_speculative_tokens我测了2,3,4,5。效果上3最好。

      启动脚本:

      root@NV-AI-3090Dual2:~# cat vllm.qwen3.6-27b.sh 
      #!/bin/bash
      source /root/.bashrc
      source /root/venv/bin/activate
      # vLLM 启动脚本 — Qwen3.6-27B-AutoRound-INT4
      # 用法: bash start-vllm-qwen3.6.sh [TP] [PP]
      #   TP: tensor-parallel size,默认 2
      #   PP: pipeline-parallel size,默认 1
      
      set -e
      
      # ========== 参数 ==========
      TP="${1:-${TP:-2}}"
      PP="${2:-${PP:-1}}"
      MODEL_PATH="/root/models/qwen3.6-27b-autoround-int4"
      PORT="${PORT:-8000}"
      HOST="${HOST:-0.0.0.0}"
      MAX_MODEL_LEN="${MAX_MODEL_LEN:-262144}"
      GPU_MEM_UTIL="${GPU_MEMORY_UTILIZATION:-0.92}"
      KV_CACHE_DTYPE="${KV_CACHE_DTYPE:-fp8_e5m2}"
      TEMP="${TEMP:-${TEMPERATURE:-0.6}}"
      TOP_P="${TOP_P:-0.95}"
      TOP_K="${TOP_K:-20}"
      MIN_P="${MIN_P:-0.0}"
      REPEAT_PENALTY="${REPEAT_PENALTY:-1.0}"
      
      # speculative decoding
      SPECULATIVE_CONFIG='{"method":"mtp","num_speculative_tokens":3}'
      
      # 推理模板参数(关闭 thinking)
      CHAT_TEMPLATE_KWARGS='{"enable_thinking": false}'
      
      # ========== 环境变量 ==========
      export NVIDIA_VISIBLE_DEVICES="${NVIDIA_VISIBLE_DEVICES:-all}"
      export HUGGING_FACE_HUB_TOKEN="${HF_TOKEN:-}"
      export VLLM_WORKER_MULTIPROC_METHOD=spawn
      export NCCL_CUMEM_ENABLE=0
      export NCCL_P2P_DISABLE=0
      export VLLM_NO_USAGE_STATS=1
      export VLLM_USE_FLASHINFER_SAMPLER=1
      export OMP_NUM_THREADS=1
      export PYTORCH_CUDA_ALLOC_CONF="expandable_segments:True,max_split_size_mb:512"
      
      # NVLink 检测(自行补充 detect_nvlink.sh 逻辑,或删掉这两行)
      # source /etc/club3090/detect_nvlink.sh
      # _NVLINK_ENABLED=0  # 手动设置:0=无NVLink, 1=NvLink开启
      
      # ========== 构建命令 ==========
      ARGS=(
          --model "$MODEL_PATH"
          --served-model-name qwen3.6-27b-autoround
          --quantization auto_round
          --dtype float16
          --tensor-parallel-size "$TP"
          --pipeline-parallel-size "$PP"
          --max-model-len "$MAX_MODEL_LEN"
          --gpu-memory-utilization "$GPU_MEM_UTIL"
          --max-num-seqs 2
          --max-num-batched-tokens 8192
          --kv-cache-dtype "$KV_CACHE_DTYPE"
          --trust-remote-code
        #  --chat-template "${CHAT_TEMPLATE}"      # 没有自定义模板文件则删除此行
          --reasoning-parser qwen3
          --default-chat-template-kwargs "$CHAT_TEMPLATE_KWARGS"
          --enable-auto-tool-choice
          --tool-call-parser qwen3_coder
          --enable-prefix-caching
          --enable-chunked-prefill
          --disable-custom-all-reduce
          --speculative-config "$SPECULATIVE_CONFIG"
          --override-generation-config "{\"temperature\":${TEMP},\"top_p\":${TOP_P},\"top_k\":${TOP_K},\"min_p\":${MIN_P},\"repetition_penalty\":${REPEAT_PENALTY}}"
          --host "$HOST"
          --port "$PORT"
      )
      
      echo "=========================================="
      echo "启动 vLLM | TP=$TP PP=$PP | $MODEL_PATH"
      echo "=========================================="
      echo "命令: vllm serve ${ARGS[*]}"
      echo ""
      
      exec vllm serve "${ARGS[@]}"
      deactivate
      

      690b1b73-3362-480f-aa88-ced512707a88-image.jpeg

      8ce14e76-e0ca-4006-860e-74f7f52ad455-image.jpeg

      A 在线
      A 在线
      applejuice
      编写于 最后由 applejuice 编辑
      #13

      @davidwei0826 这篇我机器还没到的时候已经看了 居然忘了我就相信AI 说不行

      现在就叫claude 去设置

      1 条回复 最后回复
      0
      • A 在线
        A 在线
        applejuice
        编写于 最后由 applejuice 编辑
        #14

        可以了
        用上nvlink
        但是不能用MTP 因为模型不支持 上述GITHUB 文章 用的只是文字模型 我想要多模态模型
        我就不测试 文字模型 了 应该100t/s 没问题
        比较奇怪的是 我没想到prefill 快了

        GPU 限制 250w
        e02b4388-500a-4f29-a5eb-a5ac4aefe60b-image.jpeg

        模型

        Repo llmfan46/Qwen3.6-27B-uncensored-heretic-v2-GPTQ-Int4
        Multimodal ✅ vision (image input)
        MTP heads Present but disabled (0% accept on GPTQ)
        Native context 262,144 tokens
        Engine vLLM v0.21.0

        参数

        --model /models/heretic-gptq-int4
        --served-model-name qwen3.6-27b-heretic
        --quantization gptq_marlin
        --dtype float16
        --tensor-parallel-size 2              # both 3090s, real NVLink usage
        --max-model-len 262144                # 262K context
        --gpu-memory-utilization 0.92
        --max-num-seqs 2                      # 2 concurrent streams
        --max-num-batched-tokens 8192
        --kv-cache-dtype fp8_e5m2             # 1 byte/token KV
        --trust-remote-code
        --reasoning-parser qwen3              # routes <think> → reasoning_content
        --enable-auto-tool-choice
        --tool-call-parser qwen3_coder        # native Qwen3 tool format
        --enable-prefix-caching               # repeated prompts share KV
        --enable-chunked-prefill              # long prefill doesn't block decode
        --disable-custom-all-reduce           # MANDATORY for cross-NUMA setup
        

        测试

        Metric Value
        Decode (single-stream, steady) 67 t/s (同时2个对话同时 62t/s
        Prefill (4K prompt, warmed)** 1,289 t/s (同时2个对话 1,000 t/s)
        VRAM total ~43 GB / 48 GB
        rock shiR 1 条回复 最后回复
        3
        • A applejuice

          可以了
          用上nvlink
          但是不能用MTP 因为模型不支持 上述GITHUB 文章 用的只是文字模型 我想要多模态模型
          我就不测试 文字模型 了 应该100t/s 没问题
          比较奇怪的是 我没想到prefill 快了

          GPU 限制 250w
          e02b4388-500a-4f29-a5eb-a5ac4aefe60b-image.jpeg

          模型

          Repo llmfan46/Qwen3.6-27B-uncensored-heretic-v2-GPTQ-Int4
          Multimodal ✅ vision (image input)
          MTP heads Present but disabled (0% accept on GPTQ)
          Native context 262,144 tokens
          Engine vLLM v0.21.0

          参数

          --model /models/heretic-gptq-int4
          --served-model-name qwen3.6-27b-heretic
          --quantization gptq_marlin
          --dtype float16
          --tensor-parallel-size 2              # both 3090s, real NVLink usage
          --max-model-len 262144                # 262K context
          --gpu-memory-utilization 0.92
          --max-num-seqs 2                      # 2 concurrent streams
          --max-num-batched-tokens 8192
          --kv-cache-dtype fp8_e5m2             # 1 byte/token KV
          --trust-remote-code
          --reasoning-parser qwen3              # routes <think> → reasoning_content
          --enable-auto-tool-choice
          --tool-call-parser qwen3_coder        # native Qwen3 tool format
          --enable-prefix-caching               # repeated prompts share KV
          --enable-chunked-prefill              # long prefill doesn't block decode
          --disable-custom-all-reduce           # MANDATORY for cross-NUMA setup
          

          测试

          Metric Value
          Decode (single-stream, steady) 67 t/s (同时2个对话同时 62t/s
          Prefill (4K prompt, warmed)** 1,289 t/s (同时2个对话 1,000 t/s)
          VRAM total ~43 GB / 48 GB
          rock shiR 离线
          rock shiR 离线
          rock shi
          编写于 最后由 编辑
          #15

          @applejuice 牛皮!这个速度已经很舒服了。hermes用子代理干活也能提高速度,3080最高能跑到70t/s

          A 1 条回复 最后回复
          0
          • rock shiR rock shi

            @applejuice 牛皮!这个速度已经很舒服了。hermes用子代理干活也能提高速度,3080最高能跑到70t/s

            A 在线
            A 在线
            applejuice
            编写于 最后由 编辑
            #16

            @rock-shi 说:

            @applejuice 牛皮!这个速度已经很舒服了。hermes用子代理干活也能提高速度,3080最高能跑到70t/s

            够用了
            先玩玩comfyui ✌

            1 条回复 最后回复
            0
            • V 离线
              V 离线
              vosrock
              编写于 最后由 编辑
              #17

              爽啊,速度另说,精度提高还是会舒服很多的

              1 条回复 最后回复
              0
              • A applejuice

                我暂时不大想搞了 先用上来 不然为了小小改善花上几天不值得 就好像以前玩3d打印机 一直搞打印机都不打印

                现在hermes 接入llama Qwen3.6-27B-uncensored-heretic
                kv Q8_0 216k context(还没试)
                prefill 800-900t/s
                全模态吞吐 40t/s
                也算可以用

                接下来玩下comfyUi

                nvlink 就有点浪费 多花了3000好像

                V 离线
                V 离线
                vosrock
                编写于 最后由 编辑
                #18

                @applejuice 反正我是一边折腾一边工作,有痛苦的时候,就是这次对话的改动很好,但是显存炸了,这个时候只有3T/S,你得等它慢慢总结,慢慢GIT
                27b也有过不去的坎,这个时候只能你自己告诉它怎么弄,我试过,它搞不定的,让他自己跑一个下午都跑不通,这里几天折腾,我的新软件也已经跑出来了。

                rock shiR 1 条回复 最后回复
                1
                • V vosrock

                  @applejuice 反正我是一边折腾一边工作,有痛苦的时候,就是这次对话的改动很好,但是显存炸了,这个时候只有3T/S,你得等它慢慢总结,慢慢GIT
                  27b也有过不去的坎,这个时候只能你自己告诉它怎么弄,我试过,它搞不定的,让他自己跑一个下午都跑不通,这里几天折腾,我的新软件也已经跑出来了。

                  rock shiR 离线
                  rock shiR 离线
                  rock shi
                  编写于 最后由 编辑
                  #19

                  @vosrock 还得是大显存。40g显存可以一边跑模型一边打游戏哈哈,或者一边跑模型一边剪辑看视频

                  V 1 条回复 最后回复
                  0
                  • rock shiR rock shi

                    @vosrock 还得是大显存。40g显存可以一边跑模型一边打游戏哈哈,或者一边跑模型一边剪辑看视频

                    V 离线
                    V 离线
                    vosrock
                    编写于 最后由 编辑
                    #20

                    @rock-shi 你这么说有道理啊,一张卡跑HERMES,让HERMES调用另外一张卡跑图片或者视频
                    我昨天还想来着,我如果想HERMES生图咋办,再跑COMFYUI没资源了啊,有两张卡就啥都解决了

                    rock shiR 1 条回复 最后回复
                    0
                    • V vosrock

                      @rock-shi 你这么说有道理啊,一张卡跑HERMES,让HERMES调用另外一张卡跑图片或者视频
                      我昨天还想来着,我如果想HERMES生图咋办,再跑COMFYUI没资源了啊,有两张卡就啥都解决了

                      rock shiR 离线
                      rock shiR 离线
                      rock shi
                      编写于 最后由 编辑
                      #21

                      @vosrock 有条件还可以研究一下API的跑图,也都不贵,解放本地算力哈哈。

                      1 条回复 最后回复
                      0

                      你好!看起来您对这段对话很感兴趣,但您还没有一个账号。

                      厌倦了每次访问都刷到同样的帖子?您注册账号后,您每次返回时都能精准定位到您上次浏览的位置,并可选择接收新回复通知(通过邮件或推送通知)。您还能收藏书签、为帖子顶,向社区成员表达您的欣赏。

                      有了你的建议,这篇帖子会更精彩哦 💗

                      注册 登录
                      回复
                      • 在新帖中回复
                      登录后回复
                      • 从旧到新
                      • 从新到旧
                      • 最多赞同


                      • 登录

                      • 没有帐号? 注册

                      • 登录或注册以进行搜索。
                      • 第一个帖子
                        最后一个帖子
                      0
                      • 版块
                      • 最新
                      • 标签
                      • 热门
                      • 用户
                      • 群组