跳转至内容
  • 版块
  • 最新
  • 标签
  • 热门
  • 用户
  • 群组
皮肤
  • 浅色
  • Brite
  • Cerulean
  • Cosmo
  • Flatly
  • Journal
  • Litera
  • Lumen
  • Lux
  • Materia
  • Minty
  • Morph
  • Pulse
  • Sandstone
  • Simplex
  • Sketchy
  • Spacelab
  • United
  • Yeti
  • Zephyr
  • 深色
  • Cyborg
  • Darkly
  • Quartz
  • Slate
  • Solar
  • Superhero
  • Vapor

  • 默认(不使用皮肤)
  • 不使用皮肤
折叠
品牌标识

抡锤者

  1. 主页
  2. AI硬件
  3. 双 3090(NVLink)跑 Qwen3.6-27B,128K 上下文实测

双 3090(NVLink)跑 Qwen3.6-27B,128K 上下文实测

已定时 已固定 已锁定 已移动 AI硬件
nvidiartx3090multi-gpu
44 帖子 16 发布者 1.4k 浏览 2 关注中
  • 从旧到新
  • 从新到旧
  • 最多赞同
回复
  • 在新帖中回复
登录后回复
此主题已被删除。只有拥有主题管理权限的用户可以查看。
  • V vosrock

    @applejuice 反正我是一边折腾一边工作,有痛苦的时候,就是这次对话的改动很好,但是显存炸了,这个时候只有3T/S,你得等它慢慢总结,慢慢GIT
    27b也有过不去的坎,这个时候只能你自己告诉它怎么弄,我试过,它搞不定的,让他自己跑一个下午都跑不通,这里几天折腾,我的新软件也已经跑出来了。

    rock shiR 离线
    rock shiR 离线
    rock shi
    劳动模范
    发表于 最后由 编辑
    #19

    @vosrock 还得是大显存。40g显存可以一边跑模型一边打游戏哈哈,或者一边跑模型一边剪辑看视频

    V 1 条回复 最后回复
    0
    • rock shiR rock shi

      @vosrock 还得是大显存。40g显存可以一边跑模型一边打游戏哈哈,或者一边跑模型一边剪辑看视频

      V 离线
      V 离线
      vosrock
      德高望重 劳动模范
      发表于 最后由 编辑
      #20

      @rock-shi 你这么说有道理啊,一张卡跑HERMES,让HERMES调用另外一张卡跑图片或者视频
      我昨天还想来着,我如果想HERMES生图咋办,再跑COMFYUI没资源了啊,有两张卡就啥都解决了

      rock shiR 1 条回复 最后回复
      0
      • V vosrock

        @rock-shi 你这么说有道理啊,一张卡跑HERMES,让HERMES调用另外一张卡跑图片或者视频
        我昨天还想来着,我如果想HERMES生图咋办,再跑COMFYUI没资源了啊,有两张卡就啥都解决了

        rock shiR 离线
        rock shiR 离线
        rock shi
        劳动模范
        发表于 最后由 编辑
        #21

        @vosrock 有条件还可以研究一下API的跑图,也都不贵,解放本地算力哈哈。

        1 条回复 最后回复
        0
        • A applejuice

          可以了
          用上nvlink
          但是不能用MTP 因为模型不支持 上述GITHUB 文章 用的只是文字模型 我想要多模态模型
          我就不测试 文字模型 了 应该100t/s 没问题
          比较奇怪的是 我没想到prefill 快了

          GPU 限制 250w
          e02b4388-500a-4f29-a5eb-a5ac4aefe60b-image.jpeg

          模型

          Repo llmfan46/Qwen3.6-27B-uncensored-heretic-v2-GPTQ-Int4
          Multimodal ✅ vision (image input)
          MTP heads Present but disabled (0% accept on GPTQ)
          Native context 262,144 tokens
          Engine vLLM v0.21.0

          参数

          --model /models/heretic-gptq-int4
          --served-model-name qwen3.6-27b-heretic
          --quantization gptq_marlin
          --dtype float16
          --tensor-parallel-size 2              # both 3090s, real NVLink usage
          --max-model-len 262144                # 262K context
          --gpu-memory-utilization 0.92
          --max-num-seqs 2                      # 2 concurrent streams
          --max-num-batched-tokens 8192
          --kv-cache-dtype fp8_e5m2             # 1 byte/token KV
          --trust-remote-code
          --reasoning-parser qwen3              # routes <think> → reasoning_content
          --enable-auto-tool-choice
          --tool-call-parser qwen3_coder        # native Qwen3 tool format
          --enable-prefix-caching               # repeated prompts share KV
          --enable-chunked-prefill              # long prefill doesn't block decode
          --disable-custom-all-reduce           # MANDATORY for cross-NUMA setup
          

          测试

          Metric Value
          Decode (single-stream, steady) 67 t/s (同时2个对话同时 62t/s
          Prefill (4K prompt, warmed)** 1,289 t/s (同时2个对话 1,000 t/s)
          VRAM total ~43 GB / 48 GB
          laihzang619L 离线
          laihzang619L 离线
          laihzang619
          编写于 最后由 编辑
          #22

          @applejuice 大佬 这个模型是默认就有视觉吗 还需要向别的模型一样需要下载一个投影层吗

          A 1 条回复 最后回复
          0
          • laihzang619L laihzang619

            @applejuice 大佬 这个模型是默认就有视觉吗 还需要向别的模型一样需要下载一个投影层吗

            A 离线
            A 离线
            applejuice
            劳动模范 德高望重
            编写于 最后由 编辑
            #23

            @laihzang619 需要下载

            1 条回复 最后回复
            0
            • laihzang619L 离线
              laihzang619L 离线
              laihzang619
              编写于 最后由 编辑
              #24

              @applejuice 投影层的名字 或者下载地址 能麻烦给一个吗

              A 1 条回复 最后回复
              0
              • laihzang619L laihzang619

                @applejuice 投影层的名字 或者下载地址 能麻烦给一个吗

                A 离线
                A 离线
                applejuice
                劳动模范 德高望重
                编写于 最后由 编辑
                #25

                @laihzang619 我刚查了一下
                原来不需要
                应该是我之前的那个需要

                很多都是ai 自动设置所以我也忘了😮

                1 条回复 最后回复
                0
                • Leon YL 离线
                  Leon YL 离线
                  Leon Y
                  编写于 最后由 编辑
                  #26

                  Qwen3.6-27B我也是上不了多模态,只能退回到Qwen3-VL

                  1 条回复 最后回复
                  0
                  • Leon YL 离线
                    Leon YL 离线
                    Leon Y
                    编写于 最后由 编辑
                    #27

                    我的也是3090x2+NVLink,vLLM跑Qwen3.6-27B 性能
                    Narrative
                    • 吞吐: 92.4 tok/s

                    Code
                    • 吞吐: 99.0 tok/s

                    A Larry WangL 2 条回复 最后回复
                    0
                    • Leon YL Leon Y

                      我的也是3090x2+NVLink,vLLM跑Qwen3.6-27B 性能
                      Narrative
                      • 吞吐: 92.4 tok/s

                      Code
                      • 吞吐: 99.0 tok/s

                      A 离线
                      A 离线
                      applejuice
                      劳动模范 德高望重
                      编写于 最后由 编辑
                      #28

                      @Leon-Y prefill 呢?

                      Leon YL 1 条回复 最后回复
                      0
                      • Leon YL Leon Y

                        我的也是3090x2+NVLink,vLLM跑Qwen3.6-27B 性能
                        Narrative
                        • 吞吐: 92.4 tok/s

                        Code
                        • 吞吐: 99.0 tok/s

                        Larry WangL 离线
                        Larry WangL 离线
                        Larry Wang
                        编写于 最后由 编辑
                        #29

                        @Leon-Y 3090的nvlink在哪里买?多少钱呀?

                        Leon YL 1 条回复 最后回复
                        0
                        • Larry WangL Larry Wang

                          @Leon-Y 3090的nvlink在哪里买?多少钱呀?

                          Leon YL 离线
                          Leon YL 离线
                          Leon Y
                          编写于 最后由 编辑
                          #30

                          @Larry-Wang 说:

                          @Leon-Y 3090的nvlink在哪里买?多少钱呀?

                          taobao, RMB2500

                          A 1 条回复 最后回复
                          0
                          • A applejuice

                            @Leon-Y prefill 呢?

                            Leon YL 离线
                            Leon YL 离线
                            Leon Y
                            编写于 最后由 编辑
                            #31

                            @applejuice 说:

                            @Leon-Y prefill 呢?

                            忘了看了

                            1 条回复 最后回复
                            0
                            • Leon YL Leon Y

                              @Larry-Wang 说:

                              @Leon-Y 3090的nvlink在哪里买?多少钱呀?

                              taobao, RMB2500

                              A 离线
                              A 离线
                              applejuice
                              劳动模范 德高望重
                              编写于 最后由 编辑
                              #32

                              @Leon-Y 说:

                              @Larry-Wang 说:

                              @Leon-Y 3090的nvlink在哪里买?多少钱呀?

                              taobao, RMB2500

                              3槽的吧? 那么贵

                              1 条回复 最后回复
                              0
                              • A applejuice

                                声明:这篇东西是叫AI 总结的

                                交作业。双 3090 跑 Qwen3.6-27B,测了上下文深度对速度的影响

                                GPU:RTX 3090 ×2,已上 NVLink(nvidia-smi topo -m 显示 NV4,4 条 link 各 14GB/s,约 56GB/s)
                                模型:Qwen3.6-27B-UD-Q4_K_XL(unsloth 动态量化) --- 下载错了 将就用
                                引擎:llama.cpp 自编译(CUDA),layer-split(默认模式)
                                KV cache:q8_0,上下文 153600
                                开了 MTP(--spec-type draft-mtp --spec-draft-n-max 3)、flash-attn

                                测试方法: 每次冷 prefill,关掉 prompt cache,数字比较实在。脚本跑 /completion 读 timings。
                                prompt_n | prefill t/s | gen t/s | 总显存 | 功耗
                                782 | 708.8 | 59.2 | 34.7G | 440W
                                6155 | 1285.9 | 58.5 | 34.8G | 436W
                                24587 | 1249.5 | 54.6 | 34.8G | 441W
                                98315 | 835.4 | 47.4 | 34.8G | 441W
                                135017 | 694.2 | 43.2 | 34.8G | 444W

                                解码 59 → 43 t/s,从 800 一路到 135K 上下文只掉 27%,曲线相当平,不像单卡过了 64K 就断崖
                                显存全程稳定 34.7G(KV cache 启动时按满 context 预分配),48G 总显存还剩富裕,上下文还能再往上拉
                                prefill 在中段(6K~24K)能冲到 1250+ t/s,深上下文回落到 700 左右
                                双卡 layer-split,两张卡轮流跑,速度约等于单卡——双卡的收益主要是"显存容量",能塞下深上下文
                                功耗双卡合计稳定 ~440W

                                一开始先用vllm 跑两张卡 结果只有7t/s, 所以先用上llama 然后在看能不能用上NVLINK
                                现在还叫claude 解决vllm 然后测试

                                T 离线
                                T 离线
                                topgun2000
                                编写于 最后由 topgun2000 编辑
                                #33

                                @applejuice 我和你试了几乎完全一样的设置Qwen3.6-27B-UD-Q4_K_XL,不过是单卡4090 24GB,所以上下文只能装120000。MTP开了以后大概能85~90tps,不开大概45tps,vram用了23GB

                                1 条回复 最后回复
                                0
                                • D davidwei0826

                                  双卡3090 vLLM跑Qwen3.6-27B,强烈建议关注: https://github.com/noonghunna/club-3090 。
                                  我自己的环境: 双卡3090 nvlink,模型Qwen3.6-27B-autoround-int4。 kv cache fp8_e5m2量化, 上下文长度 262144 。采用 dual-mtp 的vllm运行参数和测试脚本(soak-test.sh), p50_decode_tps:61.34;p95_ttft_ms:4864 。
                                  官方给的测试,应该能到接近70tps,我的还有优化空间,但是能用了就没折腾,参考DUAL_CARD.md。
                                  num_speculative_tokens我测了2,3,4,5。效果上3最好。

                                  启动脚本:

                                  root@NV-AI-3090Dual2:~# cat vllm.qwen3.6-27b.sh 
                                  #!/bin/bash
                                  source /root/.bashrc
                                  source /root/venv/bin/activate
                                  # vLLM 启动脚本 — Qwen3.6-27B-AutoRound-INT4
                                  # 用法: bash start-vllm-qwen3.6.sh [TP] [PP]
                                  #   TP: tensor-parallel size,默认 2
                                  #   PP: pipeline-parallel size,默认 1
                                  
                                  set -e
                                  
                                  # ========== 参数 ==========
                                  TP="${1:-${TP:-2}}"
                                  PP="${2:-${PP:-1}}"
                                  MODEL_PATH="/root/models/qwen3.6-27b-autoround-int4"
                                  PORT="${PORT:-8000}"
                                  HOST="${HOST:-0.0.0.0}"
                                  MAX_MODEL_LEN="${MAX_MODEL_LEN:-262144}"
                                  GPU_MEM_UTIL="${GPU_MEMORY_UTILIZATION:-0.92}"
                                  KV_CACHE_DTYPE="${KV_CACHE_DTYPE:-fp8_e5m2}"
                                  TEMP="${TEMP:-${TEMPERATURE:-0.6}}"
                                  TOP_P="${TOP_P:-0.95}"
                                  TOP_K="${TOP_K:-20}"
                                  MIN_P="${MIN_P:-0.0}"
                                  REPEAT_PENALTY="${REPEAT_PENALTY:-1.0}"
                                  
                                  # speculative decoding
                                  SPECULATIVE_CONFIG='{"method":"mtp","num_speculative_tokens":3}'
                                  
                                  # 推理模板参数(关闭 thinking)
                                  CHAT_TEMPLATE_KWARGS='{"enable_thinking": false}'
                                  
                                  # ========== 环境变量 ==========
                                  export NVIDIA_VISIBLE_DEVICES="${NVIDIA_VISIBLE_DEVICES:-all}"
                                  export HUGGING_FACE_HUB_TOKEN="${HF_TOKEN:-}"
                                  export VLLM_WORKER_MULTIPROC_METHOD=spawn
                                  export NCCL_CUMEM_ENABLE=0
                                  export NCCL_P2P_DISABLE=0
                                  export VLLM_NO_USAGE_STATS=1
                                  export VLLM_USE_FLASHINFER_SAMPLER=1
                                  export OMP_NUM_THREADS=1
                                  export PYTORCH_CUDA_ALLOC_CONF="expandable_segments:True,max_split_size_mb:512"
                                  
                                  # NVLink 检测(自行补充 detect_nvlink.sh 逻辑,或删掉这两行)
                                  # source /etc/club3090/detect_nvlink.sh
                                  # _NVLINK_ENABLED=0  # 手动设置:0=无NVLink, 1=NvLink开启
                                  
                                  # ========== 构建命令 ==========
                                  ARGS=(
                                      --model "$MODEL_PATH"
                                      --served-model-name qwen3.6-27b-autoround
                                      --quantization auto_round
                                      --dtype float16
                                      --tensor-parallel-size "$TP"
                                      --pipeline-parallel-size "$PP"
                                      --max-model-len "$MAX_MODEL_LEN"
                                      --gpu-memory-utilization "$GPU_MEM_UTIL"
                                      --max-num-seqs 2
                                      --max-num-batched-tokens 8192
                                      --kv-cache-dtype "$KV_CACHE_DTYPE"
                                      --trust-remote-code
                                    #  --chat-template "${CHAT_TEMPLATE}"      # 没有自定义模板文件则删除此行
                                      --reasoning-parser qwen3
                                      --default-chat-template-kwargs "$CHAT_TEMPLATE_KWARGS"
                                      --enable-auto-tool-choice
                                      --tool-call-parser qwen3_coder
                                      --enable-prefix-caching
                                      --enable-chunked-prefill
                                      --disable-custom-all-reduce
                                      --speculative-config "$SPECULATIVE_CONFIG"
                                      --override-generation-config "{\"temperature\":${TEMP},\"top_p\":${TOP_P},\"top_k\":${TOP_K},\"min_p\":${MIN_P},\"repetition_penalty\":${REPEAT_PENALTY}}"
                                      --host "$HOST"
                                      --port "$PORT"
                                  )
                                  
                                  echo "=========================================="
                                  echo "启动 vLLM | TP=$TP PP=$PP | $MODEL_PATH"
                                  echo "=========================================="
                                  echo "命令: vllm serve ${ARGS[*]}"
                                  echo ""
                                  
                                  exec vllm serve "${ARGS[@]}"
                                  deactivate
                                  

                                  690b1b73-3362-480f-aa88-ced512707a88-image.jpeg

                                  8ce14e76-e0ca-4006-860e-74f7f52ad455-image.jpeg

                                  T 离线
                                  T 离线
                                  topgun2000
                                  编写于 最后由 topgun2000 编辑
                                  #34

                                  @applejuice 我觉得结果很不错,NVlink通信损失小,TP是算力叠加,所以2x3090在这种情况下tps能接近或者等同单卡4090算力,而且上下文能更多

                                  @Leon-Y 为什么你的数据比 @applejuice 的好很多?

                                  A 1 条回复 最后回复
                                  0
                                  • T topgun2000

                                    @applejuice 我觉得结果很不错,NVlink通信损失小,TP是算力叠加,所以2x3090在这种情况下tps能接近或者等同单卡4090算力,而且上下文能更多

                                    @Leon-Y 为什么你的数据比 @applejuice 的好很多?

                                    A 离线
                                    A 离线
                                    applejuice
                                    劳动模范 德高望重
                                    编写于 最后由 编辑
                                    #35

                                    @topgun2000 模型不一样
                                    如果用那个模型 开mtp 结果差不多

                                    T 1 条回复 最后回复
                                    0
                                    • A applejuice

                                      @topgun2000 模型不一样
                                      如果用那个模型 开mtp 结果差不多

                                      T 离线
                                      T 离线
                                      topgun2000
                                      编写于 最后由 topgun2000 编辑
                                      #36

                                      @applejuice 了解了,他用的是int4的文字模型,所以TP更快一些

                                      1 条回复 最后回复
                                      0
                                      • A applejuice

                                        声明:这篇东西是叫AI 总结的

                                        交作业。双 3090 跑 Qwen3.6-27B,测了上下文深度对速度的影响

                                        GPU:RTX 3090 ×2,已上 NVLink(nvidia-smi topo -m 显示 NV4,4 条 link 各 14GB/s,约 56GB/s)
                                        模型:Qwen3.6-27B-UD-Q4_K_XL(unsloth 动态量化) --- 下载错了 将就用
                                        引擎:llama.cpp 自编译(CUDA),layer-split(默认模式)
                                        KV cache:q8_0,上下文 153600
                                        开了 MTP(--spec-type draft-mtp --spec-draft-n-max 3)、flash-attn

                                        测试方法: 每次冷 prefill,关掉 prompt cache,数字比较实在。脚本跑 /completion 读 timings。
                                        prompt_n | prefill t/s | gen t/s | 总显存 | 功耗
                                        782 | 708.8 | 59.2 | 34.7G | 440W
                                        6155 | 1285.9 | 58.5 | 34.8G | 436W
                                        24587 | 1249.5 | 54.6 | 34.8G | 441W
                                        98315 | 835.4 | 47.4 | 34.8G | 441W
                                        135017 | 694.2 | 43.2 | 34.8G | 444W

                                        解码 59 → 43 t/s,从 800 一路到 135K 上下文只掉 27%,曲线相当平,不像单卡过了 64K 就断崖
                                        显存全程稳定 34.7G(KV cache 启动时按满 context 预分配),48G 总显存还剩富裕,上下文还能再往上拉
                                        prefill 在中段(6K~24K)能冲到 1250+ t/s,深上下文回落到 700 左右
                                        双卡 layer-split,两张卡轮流跑,速度约等于单卡——双卡的收益主要是"显存容量",能塞下深上下文
                                        功耗双卡合计稳定 ~440W

                                        一开始先用vllm 跑两张卡 结果只有7t/s, 所以先用上llama 然后在看能不能用上NVLINK
                                        现在还叫claude 解决vllm 然后测试

                                        qw erQ 离线
                                        qw erQ 离线
                                        qw er
                                        编写于 最后由 编辑
                                        #37

                                        @applejuice 兄弟 哪个主板可以插双3090啊 这个卡台厚了 论坛洋垃圾的主板行吗

                                        A E 2 条回复 最后回复
                                        0
                                        • qw erQ qw er

                                          @applejuice 兄弟 哪个主板可以插双3090啊 这个卡台厚了 论坛洋垃圾的主板行吗

                                          A 离线
                                          A 离线
                                          applejuice
                                          劳动模范 德高望重
                                          编写于 最后由 编辑
                                          #38

                                          @qw-er 说:

                                          @applejuice 兄弟 哪个主板可以插双3090啊 这个卡台厚了 论坛洋垃圾的主板行吗

                                          我的是涡轮卡
                                          一张卡占 2 条 正常间距的pcie16

                                          我用的是x10-x99-8d
                                          只有双路的pcie 16间距 才能插nvlink

                                          1 条回复 最后回复
                                          0

                                          你好!看起来您对这段对话很感兴趣,但您还没有一个账号。

                                          厌倦了每次访问都刷到同样的帖子?您注册账号后,您每次返回时都能精准定位到您上次浏览的位置,并可选择接收新回复通知(通过邮件或推送通知)。您还能收藏书签、为帖子顶,向社区成员表达您的欣赏。

                                          有了你的建议,这篇帖子会更精彩哦 💗

                                          注册 登录
                                          回复
                                          • 在新帖中回复
                                          登录后回复
                                          • 从旧到新
                                          • 从新到旧
                                          • 最多赞同


                                          • 登录

                                          • 没有帐号? 注册

                                          • 第一个帖子
                                            最后一个帖子
                                          0
                                          • 版块
                                          • 最新
                                          • 标签
                                          • 热门
                                          • 用户
                                          • 群组