跳转至内容
  • 版块
  • 最新
  • 标签
  • 热门
  • 用户
  • 群组
皮肤
  • 浅色
  • Brite
  • Cerulean
  • Cosmo
  • Flatly
  • Journal
  • Litera
  • Lumen
  • Lux
  • Materia
  • Minty
  • Morph
  • Pulse
  • Sandstone
  • Simplex
  • Sketchy
  • Spacelab
  • United
  • Yeti
  • Zephyr
  • 深色
  • Cyborg
  • Darkly
  • Quartz
  • Slate
  • Solar
  • Superhero
  • Vapor

  • 默认(不使用皮肤)
  • 不使用皮肤
折叠
品牌标识

抡锤者

  1. 主页
  2. AI硬件
  3. 双 3090(NVLink)跑 Qwen3.6-27B,128K 上下文实测

双 3090(NVLink)跑 Qwen3.6-27B,128K 上下文实测

已定时 已固定 已锁定 已移动 AI硬件
nvidiartx3090multi-gpu
44 帖子 16 发布者 1.4k 浏览 2 关注中
  • 从旧到新
  • 从新到旧
  • 最多赞同
回复
  • 在新帖中回复
登录后回复
此主题已被删除。只有拥有主题管理权限的用户可以查看。
  • Larry WangL Larry Wang

    @Leon-Y 3090的nvlink在哪里买?多少钱呀?

    Leon YL 离线
    Leon YL 离线
    Leon Y
    编写于 最后由 编辑
    #30

    @Larry-Wang 说:

    @Leon-Y 3090的nvlink在哪里买?多少钱呀?

    taobao, RMB2500

    A 1 条回复 最后回复
    0
    • A applejuice

      @Leon-Y prefill 呢?

      Leon YL 离线
      Leon YL 离线
      Leon Y
      编写于 最后由 编辑
      #31

      @applejuice 说:

      @Leon-Y prefill 呢?

      忘了看了

      1 条回复 最后回复
      0
      • Leon YL Leon Y

        @Larry-Wang 说:

        @Leon-Y 3090的nvlink在哪里买?多少钱呀?

        taobao, RMB2500

        A 离线
        A 离线
        applejuice
        劳动模范 德高望重
        编写于 最后由 编辑
        #32

        @Leon-Y 说:

        @Larry-Wang 说:

        @Leon-Y 3090的nvlink在哪里买?多少钱呀?

        taobao, RMB2500

        3槽的吧? 那么贵

        1 条回复 最后回复
        0
        • A applejuice

          声明:这篇东西是叫AI 总结的

          交作业。双 3090 跑 Qwen3.6-27B,测了上下文深度对速度的影响

          GPU:RTX 3090 ×2,已上 NVLink(nvidia-smi topo -m 显示 NV4,4 条 link 各 14GB/s,约 56GB/s)
          模型:Qwen3.6-27B-UD-Q4_K_XL(unsloth 动态量化) --- 下载错了 将就用
          引擎:llama.cpp 自编译(CUDA),layer-split(默认模式)
          KV cache:q8_0,上下文 153600
          开了 MTP(--spec-type draft-mtp --spec-draft-n-max 3)、flash-attn

          测试方法: 每次冷 prefill,关掉 prompt cache,数字比较实在。脚本跑 /completion 读 timings。
          prompt_n | prefill t/s | gen t/s | 总显存 | 功耗
          782 | 708.8 | 59.2 | 34.7G | 440W
          6155 | 1285.9 | 58.5 | 34.8G | 436W
          24587 | 1249.5 | 54.6 | 34.8G | 441W
          98315 | 835.4 | 47.4 | 34.8G | 441W
          135017 | 694.2 | 43.2 | 34.8G | 444W

          解码 59 → 43 t/s,从 800 一路到 135K 上下文只掉 27%,曲线相当平,不像单卡过了 64K 就断崖
          显存全程稳定 34.7G(KV cache 启动时按满 context 预分配),48G 总显存还剩富裕,上下文还能再往上拉
          prefill 在中段(6K~24K)能冲到 1250+ t/s,深上下文回落到 700 左右
          双卡 layer-split,两张卡轮流跑,速度约等于单卡——双卡的收益主要是"显存容量",能塞下深上下文
          功耗双卡合计稳定 ~440W

          一开始先用vllm 跑两张卡 结果只有7t/s, 所以先用上llama 然后在看能不能用上NVLINK
          现在还叫claude 解决vllm 然后测试

          T 离线
          T 离线
          topgun2000
          编写于 最后由 topgun2000 编辑
          #33

          @applejuice 我和你试了几乎完全一样的设置Qwen3.6-27B-UD-Q4_K_XL,不过是单卡4090 24GB,所以上下文只能装120000。MTP开了以后大概能85~90tps,不开大概45tps,vram用了23GB

          1 条回复 最后回复
          0
          • D davidwei0826

            双卡3090 vLLM跑Qwen3.6-27B,强烈建议关注: https://github.com/noonghunna/club-3090 。
            我自己的环境: 双卡3090 nvlink,模型Qwen3.6-27B-autoround-int4。 kv cache fp8_e5m2量化, 上下文长度 262144 。采用 dual-mtp 的vllm运行参数和测试脚本(soak-test.sh), p50_decode_tps:61.34;p95_ttft_ms:4864 。
            官方给的测试,应该能到接近70tps,我的还有优化空间,但是能用了就没折腾,参考DUAL_CARD.md。
            num_speculative_tokens我测了2,3,4,5。效果上3最好。

            启动脚本:

            root@NV-AI-3090Dual2:~# cat vllm.qwen3.6-27b.sh 
            #!/bin/bash
            source /root/.bashrc
            source /root/venv/bin/activate
            # vLLM 启动脚本 — Qwen3.6-27B-AutoRound-INT4
            # 用法: bash start-vllm-qwen3.6.sh [TP] [PP]
            #   TP: tensor-parallel size,默认 2
            #   PP: pipeline-parallel size,默认 1
            
            set -e
            
            # ========== 参数 ==========
            TP="${1:-${TP:-2}}"
            PP="${2:-${PP:-1}}"
            MODEL_PATH="/root/models/qwen3.6-27b-autoround-int4"
            PORT="${PORT:-8000}"
            HOST="${HOST:-0.0.0.0}"
            MAX_MODEL_LEN="${MAX_MODEL_LEN:-262144}"
            GPU_MEM_UTIL="${GPU_MEMORY_UTILIZATION:-0.92}"
            KV_CACHE_DTYPE="${KV_CACHE_DTYPE:-fp8_e5m2}"
            TEMP="${TEMP:-${TEMPERATURE:-0.6}}"
            TOP_P="${TOP_P:-0.95}"
            TOP_K="${TOP_K:-20}"
            MIN_P="${MIN_P:-0.0}"
            REPEAT_PENALTY="${REPEAT_PENALTY:-1.0}"
            
            # speculative decoding
            SPECULATIVE_CONFIG='{"method":"mtp","num_speculative_tokens":3}'
            
            # 推理模板参数(关闭 thinking)
            CHAT_TEMPLATE_KWARGS='{"enable_thinking": false}'
            
            # ========== 环境变量 ==========
            export NVIDIA_VISIBLE_DEVICES="${NVIDIA_VISIBLE_DEVICES:-all}"
            export HUGGING_FACE_HUB_TOKEN="${HF_TOKEN:-}"
            export VLLM_WORKER_MULTIPROC_METHOD=spawn
            export NCCL_CUMEM_ENABLE=0
            export NCCL_P2P_DISABLE=0
            export VLLM_NO_USAGE_STATS=1
            export VLLM_USE_FLASHINFER_SAMPLER=1
            export OMP_NUM_THREADS=1
            export PYTORCH_CUDA_ALLOC_CONF="expandable_segments:True,max_split_size_mb:512"
            
            # NVLink 检测(自行补充 detect_nvlink.sh 逻辑,或删掉这两行)
            # source /etc/club3090/detect_nvlink.sh
            # _NVLINK_ENABLED=0  # 手动设置:0=无NVLink, 1=NvLink开启
            
            # ========== 构建命令 ==========
            ARGS=(
                --model "$MODEL_PATH"
                --served-model-name qwen3.6-27b-autoround
                --quantization auto_round
                --dtype float16
                --tensor-parallel-size "$TP"
                --pipeline-parallel-size "$PP"
                --max-model-len "$MAX_MODEL_LEN"
                --gpu-memory-utilization "$GPU_MEM_UTIL"
                --max-num-seqs 2
                --max-num-batched-tokens 8192
                --kv-cache-dtype "$KV_CACHE_DTYPE"
                --trust-remote-code
              #  --chat-template "${CHAT_TEMPLATE}"      # 没有自定义模板文件则删除此行
                --reasoning-parser qwen3
                --default-chat-template-kwargs "$CHAT_TEMPLATE_KWARGS"
                --enable-auto-tool-choice
                --tool-call-parser qwen3_coder
                --enable-prefix-caching
                --enable-chunked-prefill
                --disable-custom-all-reduce
                --speculative-config "$SPECULATIVE_CONFIG"
                --override-generation-config "{\"temperature\":${TEMP},\"top_p\":${TOP_P},\"top_k\":${TOP_K},\"min_p\":${MIN_P},\"repetition_penalty\":${REPEAT_PENALTY}}"
                --host "$HOST"
                --port "$PORT"
            )
            
            echo "=========================================="
            echo "启动 vLLM | TP=$TP PP=$PP | $MODEL_PATH"
            echo "=========================================="
            echo "命令: vllm serve ${ARGS[*]}"
            echo ""
            
            exec vllm serve "${ARGS[@]}"
            deactivate
            

            690b1b73-3362-480f-aa88-ced512707a88-image.jpeg

            8ce14e76-e0ca-4006-860e-74f7f52ad455-image.jpeg

            T 离线
            T 离线
            topgun2000
            编写于 最后由 topgun2000 编辑
            #34

            @applejuice 我觉得结果很不错,NVlink通信损失小,TP是算力叠加,所以2x3090在这种情况下tps能接近或者等同单卡4090算力,而且上下文能更多

            @Leon-Y 为什么你的数据比 @applejuice 的好很多?

            A 1 条回复 最后回复
            0
            • T topgun2000

              @applejuice 我觉得结果很不错,NVlink通信损失小,TP是算力叠加,所以2x3090在这种情况下tps能接近或者等同单卡4090算力,而且上下文能更多

              @Leon-Y 为什么你的数据比 @applejuice 的好很多?

              A 离线
              A 离线
              applejuice
              劳动模范 德高望重
              编写于 最后由 编辑
              #35

              @topgun2000 模型不一样
              如果用那个模型 开mtp 结果差不多

              T 1 条回复 最后回复
              0
              • A applejuice

                @topgun2000 模型不一样
                如果用那个模型 开mtp 结果差不多

                T 离线
                T 离线
                topgun2000
                编写于 最后由 topgun2000 编辑
                #36

                @applejuice 了解了,他用的是int4的文字模型,所以TP更快一些

                1 条回复 最后回复
                0
                • A applejuice

                  声明:这篇东西是叫AI 总结的

                  交作业。双 3090 跑 Qwen3.6-27B,测了上下文深度对速度的影响

                  GPU:RTX 3090 ×2,已上 NVLink(nvidia-smi topo -m 显示 NV4,4 条 link 各 14GB/s,约 56GB/s)
                  模型:Qwen3.6-27B-UD-Q4_K_XL(unsloth 动态量化) --- 下载错了 将就用
                  引擎:llama.cpp 自编译(CUDA),layer-split(默认模式)
                  KV cache:q8_0,上下文 153600
                  开了 MTP(--spec-type draft-mtp --spec-draft-n-max 3)、flash-attn

                  测试方法: 每次冷 prefill,关掉 prompt cache,数字比较实在。脚本跑 /completion 读 timings。
                  prompt_n | prefill t/s | gen t/s | 总显存 | 功耗
                  782 | 708.8 | 59.2 | 34.7G | 440W
                  6155 | 1285.9 | 58.5 | 34.8G | 436W
                  24587 | 1249.5 | 54.6 | 34.8G | 441W
                  98315 | 835.4 | 47.4 | 34.8G | 441W
                  135017 | 694.2 | 43.2 | 34.8G | 444W

                  解码 59 → 43 t/s,从 800 一路到 135K 上下文只掉 27%,曲线相当平,不像单卡过了 64K 就断崖
                  显存全程稳定 34.7G(KV cache 启动时按满 context 预分配),48G 总显存还剩富裕,上下文还能再往上拉
                  prefill 在中段(6K~24K)能冲到 1250+ t/s,深上下文回落到 700 左右
                  双卡 layer-split,两张卡轮流跑,速度约等于单卡——双卡的收益主要是"显存容量",能塞下深上下文
                  功耗双卡合计稳定 ~440W

                  一开始先用vllm 跑两张卡 结果只有7t/s, 所以先用上llama 然后在看能不能用上NVLINK
                  现在还叫claude 解决vllm 然后测试

                  qw erQ 离线
                  qw erQ 离线
                  qw er
                  编写于 最后由 编辑
                  #37

                  @applejuice 兄弟 哪个主板可以插双3090啊 这个卡台厚了 论坛洋垃圾的主板行吗

                  A E 2 条回复 最后回复
                  0
                  • qw erQ qw er

                    @applejuice 兄弟 哪个主板可以插双3090啊 这个卡台厚了 论坛洋垃圾的主板行吗

                    A 离线
                    A 离线
                    applejuice
                    劳动模范 德高望重
                    编写于 最后由 编辑
                    #38

                    @qw-er 说:

                    @applejuice 兄弟 哪个主板可以插双3090啊 这个卡台厚了 论坛洋垃圾的主板行吗

                    我的是涡轮卡
                    一张卡占 2 条 正常间距的pcie16

                    我用的是x10-x99-8d
                    只有双路的pcie 16间距 才能插nvlink

                    1 条回复 最后回复
                    0
                    • qw erQ qw er

                      @applejuice 兄弟 哪个主板可以插双3090啊 这个卡台厚了 论坛洋垃圾的主板行吗

                      E 离线
                      E 离线
                      ezios
                      编写于 最后由 编辑
                      #39

                      @qw-er
                      不如买个架子
                      fe8d859d-e2b1-4235-8d71-a6acb5077c49-image.jpeg

                      mei liM A 2 条回复 最后回复
                      0
                      • 潘旭高潘 离线
                        潘旭高潘 离线
                        潘旭高
                        编写于 最后由 编辑
                        #40

                        有没有配置清单,我都纠结几天了,是买两个3090还是买1个4080S

                        A 1 条回复 最后回复
                        0
                        • E ezios

                          @qw-er
                          不如买个架子
                          fe8d859d-e2b1-4235-8d71-a6acb5077c49-image.jpeg

                          mei liM 离线
                          mei liM 离线
                          mei li
                          德高望重 劳动模范
                          编写于 最后由 编辑
                          #41

                          @ezios 牛逼但是木板不导热

                          1 条回复 最后回复
                          0
                          • 潘旭高潘 潘旭高

                            有没有配置清单,我都纠结几天了,是买两个3090还是买1个4080S

                            A 离线
                            A 离线
                            applejuice
                            劳动模范 德高望重
                            编写于 最后由 编辑
                            #42

                            @潘旭高 说:

                            有没有配置清单,我都纠结几天了,是买两个3090还是买1个4080S

                            不怕吵 不怕热 3090

                            1 条回复 最后回复
                            0
                            • E ezios

                              @qw-er
                              不如买个架子
                              fe8d859d-e2b1-4235-8d71-a6acb5077c49-image.jpeg

                              A 离线
                              A 离线
                              applejuice
                              劳动模范 德高望重
                              编写于 最后由 applejuice 编辑
                              #43

                              @ezios 说:

                              @qw-er
                              不如买个架子
                              fe8d859d-e2b1-4235-8d71-a6acb5077c49-image.jpeg

                              我的nvlink 好像有问题 寄给卖家 一个星期多 还没消息
                              你买这个多少钱

                              箱子颜值高点✌

                              E 1 条回复 最后回复
                              1
                              • A applejuice

                                @ezios 说:

                                @qw-er
                                不如买个架子
                                fe8d859d-e2b1-4235-8d71-a6acb5077c49-image.jpeg

                                我的nvlink 好像有问题 寄给卖家 一个星期多 还没消息
                                你买这个多少钱

                                箱子颜值高点✌

                                E 离线
                                E 离线
                                ezios
                                编写于 最后由 ezios 编辑
                                #44

                                @applejuice 架子65,延长线贵延长线要¥69,30厘米的

                                nvlink是卖显卡那个二手店套餐送的

                                1 条回复 最后回复
                                0

                                你好!看起来您对这段对话很感兴趣,但您还没有一个账号。

                                厌倦了每次访问都刷到同样的帖子?您注册账号后,您每次返回时都能精准定位到您上次浏览的位置,并可选择接收新回复通知(通过邮件或推送通知)。您还能收藏书签、为帖子顶,向社区成员表达您的欣赏。

                                有了你的建议,这篇帖子会更精彩哦 💗

                                注册 登录
                                回复
                                • 在新帖中回复
                                登录后回复
                                • 从旧到新
                                • 从新到旧
                                • 最多赞同


                                • 登录

                                • 没有帐号? 注册

                                • 第一个帖子
                                  最后一个帖子
                                0
                                • 版块
                                • 最新
                                • 标签
                                • 热门
                                • 用户
                                • 群组