跳转至内容
  • 版块
  • 最新
  • 标签
  • 热门
  • 用户
  • 群组
皮肤
  • 浅色
  • Brite
  • Cerulean
  • Cosmo
  • Flatly
  • Journal
  • Litera
  • Lumen
  • Lux
  • Materia
  • Minty
  • Morph
  • Pulse
  • Sandstone
  • Simplex
  • Sketchy
  • Spacelab
  • United
  • Yeti
  • Zephyr
  • 深色
  • Cyborg
  • Darkly
  • Quartz
  • Slate
  • Solar
  • Superhero
  • Vapor

  • 默认(不使用皮肤)
  • 不使用皮肤
折叠
品牌标识

抡锤者

  1. 主页
  2. AI硬件
  3. 双 3090(NVLink)跑 Qwen3.6-27B,128K 上下文实测

双 3090(NVLink)跑 Qwen3.6-27B,128K 上下文实测

已定时 已固定 已锁定 已移动 AI硬件
nvidiartx3090multi-gpu
21 帖子 8 发布者 425 浏览 1 关注中
  • 从旧到新
  • 从新到旧
  • 最多赞同
回复
  • 在新帖中回复
登录后回复
此主题已被删除。只有拥有主题管理权限的用户可以查看。
  • V 离线
    V 离线
    vosrock
    编写于 最后由 vosrock 编辑
    #7

    应该还有空间,其实我单卡MTP=2跑到150K上下文都还有40TS左右,下降30%-35%,不过模型量化约等于Q4KS,而且你KV是q8的,这样长上下文改善的不单是速度,更重要的是精度,那些缩进错误,变量名出错的问题会少几次,这些它都会自己纠正,不像35B,API TOKEN就算是存在文件里当变量载入,都经常被截断,靠它自己,这道坎就很难迈过去

    1 条回复 最后回复
    0
    • V 离线
      V 离线
      vosrock
      编写于 最后由 编辑
      #8

      其实我有点想折腾一下TURBO3非对称KV量化,不知道有没有朋友试过

      1 条回复 最后回复
      0
      • A 离线
        A 离线
        applejuice
        编写于 最后由 applejuice 编辑
        #9

        我暂时不大想搞了 先用上来 不然为了小小改善花上几天不值得 就好像以前玩3d打印机 一直搞打印机都不打印

        现在hermes 接入llama Qwen3.6-27B-uncensored-heretic
        kv Q8_0 216k context(还没试)
        prefill 800-900t/s
        全模态吞吐 40t/s
        也算可以用

        接下来玩下comfyUi

        nvlink 就有点浪费 多花了3000好像

        terryT V 2 条回复 最后回复
        0
        • A applejuice

          我暂时不大想搞了 先用上来 不然为了小小改善花上几天不值得 就好像以前玩3d打印机 一直搞打印机都不打印

          现在hermes 接入llama Qwen3.6-27B-uncensored-heretic
          kv Q8_0 216k context(还没试)
          prefill 800-900t/s
          全模态吞吐 40t/s
          也算可以用

          接下来玩下comfyUi

          nvlink 就有点浪费 多花了3000好像

          terryT 离线
          terryT 离线
          terry
          编写于 最后由 编辑
          #10

          @applejuice 速度差不多就别折腾了。

          油管:https://www.youtube.com/@抡锤者

          1 条回复 最后回复
          1
          • AresROCA 离线
            AresROCA 离线
            AresROC
            编写于 最后由 AresROC 编辑
            #11

            以不含 NVLink 的 PCI 3.0x8 雙道作為對比。 Hermes 96k 上下文大約是 52~55 t/s - Power Limit 250w. So 500w Total, ~46GB VRAM.

            cd343cb0-f491-4853-81f6-6b5573d14868-image.jpeg
            91ca83bd-b9b1-4e6c-bdf2-b044bb522bd5-image.jpeg

            python -m vllm.entrypoints.openai.api_server
            --model ~/AiModel/Qwen3.6-27B-AWQ-QuantTrio
            --gpu-memory-utilization 0.95
            --max-model-len 98304
            --enable-auto-tool-choice
            --tool-call-parser hermes
            --tensor-parallel-size 2
            --host 0.0.0.0
            --port 8000

            1 条回复 最后回复
            0
            • D 离线
              D 离线
              davidwei0826
              编写于 最后由 davidwei0826 编辑
              #12

              双卡3090 vLLM跑Qwen3.6-27B,强烈建议关注: https://github.com/noonghunna/club-3090 。
              我自己的环境: 双卡3090 nvlink,模型Qwen3.6-27B-autoround-int4。 kv cache fp8_e5m2量化, 上下文长度 262144 。采用 dual-mtp 的vllm运行参数和测试脚本(soak-test.sh), p50_decode_tps:61.34;p95_ttft_ms:4864 。
              官方给的测试,应该能到接近70tps,我的还有优化空间,但是能用了就没折腾,参考DUAL_CARD.md。
              num_speculative_tokens我测了2,3,4,5。效果上3最好。

              启动脚本:

              root@NV-AI-3090Dual2:~# cat vllm.qwen3.6-27b.sh 
              #!/bin/bash
              source /root/.bashrc
              source /root/venv/bin/activate
              # vLLM 启动脚本 — Qwen3.6-27B-AutoRound-INT4
              # 用法: bash start-vllm-qwen3.6.sh [TP] [PP]
              #   TP: tensor-parallel size,默认 2
              #   PP: pipeline-parallel size,默认 1
              
              set -e
              
              # ========== 参数 ==========
              TP="${1:-${TP:-2}}"
              PP="${2:-${PP:-1}}"
              MODEL_PATH="/root/models/qwen3.6-27b-autoround-int4"
              PORT="${PORT:-8000}"
              HOST="${HOST:-0.0.0.0}"
              MAX_MODEL_LEN="${MAX_MODEL_LEN:-262144}"
              GPU_MEM_UTIL="${GPU_MEMORY_UTILIZATION:-0.92}"
              KV_CACHE_DTYPE="${KV_CACHE_DTYPE:-fp8_e5m2}"
              TEMP="${TEMP:-${TEMPERATURE:-0.6}}"
              TOP_P="${TOP_P:-0.95}"
              TOP_K="${TOP_K:-20}"
              MIN_P="${MIN_P:-0.0}"
              REPEAT_PENALTY="${REPEAT_PENALTY:-1.0}"
              
              # speculative decoding
              SPECULATIVE_CONFIG='{"method":"mtp","num_speculative_tokens":3}'
              
              # 推理模板参数(关闭 thinking)
              CHAT_TEMPLATE_KWARGS='{"enable_thinking": false}'
              
              # ========== 环境变量 ==========
              export NVIDIA_VISIBLE_DEVICES="${NVIDIA_VISIBLE_DEVICES:-all}"
              export HUGGING_FACE_HUB_TOKEN="${HF_TOKEN:-}"
              export VLLM_WORKER_MULTIPROC_METHOD=spawn
              export NCCL_CUMEM_ENABLE=0
              export NCCL_P2P_DISABLE=0
              export VLLM_NO_USAGE_STATS=1
              export VLLM_USE_FLASHINFER_SAMPLER=1
              export OMP_NUM_THREADS=1
              export PYTORCH_CUDA_ALLOC_CONF="expandable_segments:True,max_split_size_mb:512"
              
              # NVLink 检测(自行补充 detect_nvlink.sh 逻辑,或删掉这两行)
              # source /etc/club3090/detect_nvlink.sh
              # _NVLINK_ENABLED=0  # 手动设置:0=无NVLink, 1=NvLink开启
              
              # ========== 构建命令 ==========
              ARGS=(
                  --model "$MODEL_PATH"
                  --served-model-name qwen3.6-27b-autoround
                  --quantization auto_round
                  --dtype float16
                  --tensor-parallel-size "$TP"
                  --pipeline-parallel-size "$PP"
                  --max-model-len "$MAX_MODEL_LEN"
                  --gpu-memory-utilization "$GPU_MEM_UTIL"
                  --max-num-seqs 2
                  --max-num-batched-tokens 8192
                  --kv-cache-dtype "$KV_CACHE_DTYPE"
                  --trust-remote-code
                #  --chat-template "${CHAT_TEMPLATE}"      # 没有自定义模板文件则删除此行
                  --reasoning-parser qwen3
                  --default-chat-template-kwargs "$CHAT_TEMPLATE_KWARGS"
                  --enable-auto-tool-choice
                  --tool-call-parser qwen3_coder
                  --enable-prefix-caching
                  --enable-chunked-prefill
                  --disable-custom-all-reduce
                  --speculative-config "$SPECULATIVE_CONFIG"
                  --override-generation-config "{\"temperature\":${TEMP},\"top_p\":${TOP_P},\"top_k\":${TOP_K},\"min_p\":${MIN_P},\"repetition_penalty\":${REPEAT_PENALTY}}"
                  --host "$HOST"
                  --port "$PORT"
              )
              
              echo "=========================================="
              echo "启动 vLLM | TP=$TP PP=$PP | $MODEL_PATH"
              echo "=========================================="
              echo "命令: vllm serve ${ARGS[*]}"
              echo ""
              
              exec vllm serve "${ARGS[@]}"
              deactivate
              

              690b1b73-3362-480f-aa88-ced512707a88-image.jpeg

              8ce14e76-e0ca-4006-860e-74f7f52ad455-image.jpeg

              A 1 条回复 最后回复
              2
              • D davidwei0826

                双卡3090 vLLM跑Qwen3.6-27B,强烈建议关注: https://github.com/noonghunna/club-3090 。
                我自己的环境: 双卡3090 nvlink,模型Qwen3.6-27B-autoround-int4。 kv cache fp8_e5m2量化, 上下文长度 262144 。采用 dual-mtp 的vllm运行参数和测试脚本(soak-test.sh), p50_decode_tps:61.34;p95_ttft_ms:4864 。
                官方给的测试,应该能到接近70tps,我的还有优化空间,但是能用了就没折腾,参考DUAL_CARD.md。
                num_speculative_tokens我测了2,3,4,5。效果上3最好。

                启动脚本:

                root@NV-AI-3090Dual2:~# cat vllm.qwen3.6-27b.sh 
                #!/bin/bash
                source /root/.bashrc
                source /root/venv/bin/activate
                # vLLM 启动脚本 — Qwen3.6-27B-AutoRound-INT4
                # 用法: bash start-vllm-qwen3.6.sh [TP] [PP]
                #   TP: tensor-parallel size,默认 2
                #   PP: pipeline-parallel size,默认 1
                
                set -e
                
                # ========== 参数 ==========
                TP="${1:-${TP:-2}}"
                PP="${2:-${PP:-1}}"
                MODEL_PATH="/root/models/qwen3.6-27b-autoround-int4"
                PORT="${PORT:-8000}"
                HOST="${HOST:-0.0.0.0}"
                MAX_MODEL_LEN="${MAX_MODEL_LEN:-262144}"
                GPU_MEM_UTIL="${GPU_MEMORY_UTILIZATION:-0.92}"
                KV_CACHE_DTYPE="${KV_CACHE_DTYPE:-fp8_e5m2}"
                TEMP="${TEMP:-${TEMPERATURE:-0.6}}"
                TOP_P="${TOP_P:-0.95}"
                TOP_K="${TOP_K:-20}"
                MIN_P="${MIN_P:-0.0}"
                REPEAT_PENALTY="${REPEAT_PENALTY:-1.0}"
                
                # speculative decoding
                SPECULATIVE_CONFIG='{"method":"mtp","num_speculative_tokens":3}'
                
                # 推理模板参数(关闭 thinking)
                CHAT_TEMPLATE_KWARGS='{"enable_thinking": false}'
                
                # ========== 环境变量 ==========
                export NVIDIA_VISIBLE_DEVICES="${NVIDIA_VISIBLE_DEVICES:-all}"
                export HUGGING_FACE_HUB_TOKEN="${HF_TOKEN:-}"
                export VLLM_WORKER_MULTIPROC_METHOD=spawn
                export NCCL_CUMEM_ENABLE=0
                export NCCL_P2P_DISABLE=0
                export VLLM_NO_USAGE_STATS=1
                export VLLM_USE_FLASHINFER_SAMPLER=1
                export OMP_NUM_THREADS=1
                export PYTORCH_CUDA_ALLOC_CONF="expandable_segments:True,max_split_size_mb:512"
                
                # NVLink 检测(自行补充 detect_nvlink.sh 逻辑,或删掉这两行)
                # source /etc/club3090/detect_nvlink.sh
                # _NVLINK_ENABLED=0  # 手动设置:0=无NVLink, 1=NvLink开启
                
                # ========== 构建命令 ==========
                ARGS=(
                    --model "$MODEL_PATH"
                    --served-model-name qwen3.6-27b-autoround
                    --quantization auto_round
                    --dtype float16
                    --tensor-parallel-size "$TP"
                    --pipeline-parallel-size "$PP"
                    --max-model-len "$MAX_MODEL_LEN"
                    --gpu-memory-utilization "$GPU_MEM_UTIL"
                    --max-num-seqs 2
                    --max-num-batched-tokens 8192
                    --kv-cache-dtype "$KV_CACHE_DTYPE"
                    --trust-remote-code
                  #  --chat-template "${CHAT_TEMPLATE}"      # 没有自定义模板文件则删除此行
                    --reasoning-parser qwen3
                    --default-chat-template-kwargs "$CHAT_TEMPLATE_KWARGS"
                    --enable-auto-tool-choice
                    --tool-call-parser qwen3_coder
                    --enable-prefix-caching
                    --enable-chunked-prefill
                    --disable-custom-all-reduce
                    --speculative-config "$SPECULATIVE_CONFIG"
                    --override-generation-config "{\"temperature\":${TEMP},\"top_p\":${TOP_P},\"top_k\":${TOP_K},\"min_p\":${MIN_P},\"repetition_penalty\":${REPEAT_PENALTY}}"
                    --host "$HOST"
                    --port "$PORT"
                )
                
                echo "=========================================="
                echo "启动 vLLM | TP=$TP PP=$PP | $MODEL_PATH"
                echo "=========================================="
                echo "命令: vllm serve ${ARGS[*]}"
                echo ""
                
                exec vllm serve "${ARGS[@]}"
                deactivate
                

                690b1b73-3362-480f-aa88-ced512707a88-image.jpeg

                8ce14e76-e0ca-4006-860e-74f7f52ad455-image.jpeg

                A 离线
                A 离线
                applejuice
                编写于 最后由 applejuice 编辑
                #13

                @davidwei0826 这篇我机器还没到的时候已经看了 居然忘了我就相信AI 说不行

                现在就叫claude 去设置

                1 条回复 最后回复
                0
                • A 离线
                  A 离线
                  applejuice
                  编写于 最后由 applejuice 编辑
                  #14

                  可以了
                  用上nvlink
                  但是不能用MTP 因为模型不支持 上述GITHUB 文章 用的只是文字模型 我想要多模态模型
                  我就不测试 文字模型 了 应该100t/s 没问题
                  比较奇怪的是 我没想到prefill 快了

                  GPU 限制 250w
                  e02b4388-500a-4f29-a5eb-a5ac4aefe60b-image.jpeg

                  模型

                  Repo llmfan46/Qwen3.6-27B-uncensored-heretic-v2-GPTQ-Int4
                  Multimodal ✅ vision (image input)
                  MTP heads Present but disabled (0% accept on GPTQ)
                  Native context 262,144 tokens
                  Engine vLLM v0.21.0

                  参数

                  --model /models/heretic-gptq-int4
                  --served-model-name qwen3.6-27b-heretic
                  --quantization gptq_marlin
                  --dtype float16
                  --tensor-parallel-size 2              # both 3090s, real NVLink usage
                  --max-model-len 262144                # 262K context
                  --gpu-memory-utilization 0.92
                  --max-num-seqs 2                      # 2 concurrent streams
                  --max-num-batched-tokens 8192
                  --kv-cache-dtype fp8_e5m2             # 1 byte/token KV
                  --trust-remote-code
                  --reasoning-parser qwen3              # routes <think> → reasoning_content
                  --enable-auto-tool-choice
                  --tool-call-parser qwen3_coder        # native Qwen3 tool format
                  --enable-prefix-caching               # repeated prompts share KV
                  --enable-chunked-prefill              # long prefill doesn't block decode
                  --disable-custom-all-reduce           # MANDATORY for cross-NUMA setup
                  

                  测试

                  Metric Value
                  Decode (single-stream, steady) 67 t/s (同时2个对话同时 62t/s
                  Prefill (4K prompt, warmed)** 1,289 t/s (同时2个对话 1,000 t/s)
                  VRAM total ~43 GB / 48 GB
                  rock shiR 1 条回复 最后回复
                  3
                  • A applejuice

                    可以了
                    用上nvlink
                    但是不能用MTP 因为模型不支持 上述GITHUB 文章 用的只是文字模型 我想要多模态模型
                    我就不测试 文字模型 了 应该100t/s 没问题
                    比较奇怪的是 我没想到prefill 快了

                    GPU 限制 250w
                    e02b4388-500a-4f29-a5eb-a5ac4aefe60b-image.jpeg

                    模型

                    Repo llmfan46/Qwen3.6-27B-uncensored-heretic-v2-GPTQ-Int4
                    Multimodal ✅ vision (image input)
                    MTP heads Present but disabled (0% accept on GPTQ)
                    Native context 262,144 tokens
                    Engine vLLM v0.21.0

                    参数

                    --model /models/heretic-gptq-int4
                    --served-model-name qwen3.6-27b-heretic
                    --quantization gptq_marlin
                    --dtype float16
                    --tensor-parallel-size 2              # both 3090s, real NVLink usage
                    --max-model-len 262144                # 262K context
                    --gpu-memory-utilization 0.92
                    --max-num-seqs 2                      # 2 concurrent streams
                    --max-num-batched-tokens 8192
                    --kv-cache-dtype fp8_e5m2             # 1 byte/token KV
                    --trust-remote-code
                    --reasoning-parser qwen3              # routes <think> → reasoning_content
                    --enable-auto-tool-choice
                    --tool-call-parser qwen3_coder        # native Qwen3 tool format
                    --enable-prefix-caching               # repeated prompts share KV
                    --enable-chunked-prefill              # long prefill doesn't block decode
                    --disable-custom-all-reduce           # MANDATORY for cross-NUMA setup
                    

                    测试

                    Metric Value
                    Decode (single-stream, steady) 67 t/s (同时2个对话同时 62t/s
                    Prefill (4K prompt, warmed)** 1,289 t/s (同时2个对话 1,000 t/s)
                    VRAM total ~43 GB / 48 GB
                    rock shiR 离线
                    rock shiR 离线
                    rock shi
                    编写于 最后由 编辑
                    #15

                    @applejuice 牛皮!这个速度已经很舒服了。hermes用子代理干活也能提高速度,3080最高能跑到70t/s

                    A 1 条回复 最后回复
                    0
                    • rock shiR rock shi

                      @applejuice 牛皮!这个速度已经很舒服了。hermes用子代理干活也能提高速度,3080最高能跑到70t/s

                      A 离线
                      A 离线
                      applejuice
                      编写于 最后由 编辑
                      #16

                      @rock-shi 说:

                      @applejuice 牛皮!这个速度已经很舒服了。hermes用子代理干活也能提高速度,3080最高能跑到70t/s

                      够用了
                      先玩玩comfyui ✌

                      1 条回复 最后回复
                      0
                      • V 离线
                        V 离线
                        vosrock
                        编写于 最后由 编辑
                        #17

                        爽啊,速度另说,精度提高还是会舒服很多的

                        1 条回复 最后回复
                        0
                        • A applejuice

                          我暂时不大想搞了 先用上来 不然为了小小改善花上几天不值得 就好像以前玩3d打印机 一直搞打印机都不打印

                          现在hermes 接入llama Qwen3.6-27B-uncensored-heretic
                          kv Q8_0 216k context(还没试)
                          prefill 800-900t/s
                          全模态吞吐 40t/s
                          也算可以用

                          接下来玩下comfyUi

                          nvlink 就有点浪费 多花了3000好像

                          V 离线
                          V 离线
                          vosrock
                          编写于 最后由 编辑
                          #18

                          @applejuice 反正我是一边折腾一边工作,有痛苦的时候,就是这次对话的改动很好,但是显存炸了,这个时候只有3T/S,你得等它慢慢总结,慢慢GIT
                          27b也有过不去的坎,这个时候只能你自己告诉它怎么弄,我试过,它搞不定的,让他自己跑一个下午都跑不通,这里几天折腾,我的新软件也已经跑出来了。

                          rock shiR 1 条回复 最后回复
                          1
                          • V vosrock

                            @applejuice 反正我是一边折腾一边工作,有痛苦的时候,就是这次对话的改动很好,但是显存炸了,这个时候只有3T/S,你得等它慢慢总结,慢慢GIT
                            27b也有过不去的坎,这个时候只能你自己告诉它怎么弄,我试过,它搞不定的,让他自己跑一个下午都跑不通,这里几天折腾,我的新软件也已经跑出来了。

                            rock shiR 离线
                            rock shiR 离线
                            rock shi
                            编写于 最后由 编辑
                            #19

                            @vosrock 还得是大显存。40g显存可以一边跑模型一边打游戏哈哈,或者一边跑模型一边剪辑看视频

                            V 1 条回复 最后回复
                            0
                            • rock shiR rock shi

                              @vosrock 还得是大显存。40g显存可以一边跑模型一边打游戏哈哈,或者一边跑模型一边剪辑看视频

                              V 离线
                              V 离线
                              vosrock
                              编写于 最后由 编辑
                              #20

                              @rock-shi 你这么说有道理啊,一张卡跑HERMES,让HERMES调用另外一张卡跑图片或者视频
                              我昨天还想来着,我如果想HERMES生图咋办,再跑COMFYUI没资源了啊,有两张卡就啥都解决了

                              rock shiR 1 条回复 最后回复
                              0
                              • V vosrock

                                @rock-shi 你这么说有道理啊,一张卡跑HERMES,让HERMES调用另外一张卡跑图片或者视频
                                我昨天还想来着,我如果想HERMES生图咋办,再跑COMFYUI没资源了啊,有两张卡就啥都解决了

                                rock shiR 离线
                                rock shiR 离线
                                rock shi
                                编写于 最后由 编辑
                                #21

                                @vosrock 有条件还可以研究一下API的跑图,也都不贵,解放本地算力哈哈。

                                1 条回复 最后回复
                                0

                                你好!看起来您对这段对话很感兴趣,但您还没有一个账号。

                                厌倦了每次访问都刷到同样的帖子?您注册账号后,您每次返回时都能精准定位到您上次浏览的位置,并可选择接收新回复通知(通过邮件或推送通知)。您还能收藏书签、为帖子顶,向社区成员表达您的欣赏。

                                有了你的建议,这篇帖子会更精彩哦 💗

                                注册 登录
                                回复
                                • 在新帖中回复
                                登录后回复
                                • 从旧到新
                                • 从新到旧
                                • 最多赞同


                                • 登录

                                • 没有帐号? 注册

                                • 登录或注册以进行搜索。
                                • 第一个帖子
                                  最后一个帖子
                                0
                                • 版块
                                • 最新
                                • 标签
                                • 热门
                                • 用户
                                • 群组