跳转至内容
  • 版块
  • 最新
  • 标签
  • 热门
  • 用户
  • 群组
皮肤
  • 浅色
  • Brite
  • Cerulean
  • Cosmo
  • Flatly
  • Journal
  • Litera
  • Lumen
  • Lux
  • Materia
  • Minty
  • Morph
  • Pulse
  • Sandstone
  • Simplex
  • Sketchy
  • Spacelab
  • United
  • Yeti
  • Zephyr
  • 深色
  • Cyborg
  • Darkly
  • Quartz
  • Slate
  • Solar
  • Superhero
  • Vapor

  • 默认(不使用皮肤)
  • 不使用皮肤
折叠
品牌标识

抡锤者

  1. 主页
  2. AI硬件
  3. 双 3090(NVLink)跑 Qwen3.6-27B,128K 上下文实测

双 3090(NVLink)跑 Qwen3.6-27B,128K 上下文实测

已定时 已固定 已锁定 已移动 AI硬件
nvidiartx3090multi-gpu
44 帖子 16 发布者 1.4k 浏览 2 关注中
  • 从旧到新
  • 从新到旧
  • 最多赞同
回复
  • 在新帖中回复
登录后回复
此主题已被删除。只有拥有主题管理权限的用户可以查看。
  • A 离线
    A 离线
    applejuice
    劳动模范 德高望重
    发表于 最后由 applejuice 编辑
    #14

    可以了
    用上nvlink
    但是不能用MTP 因为模型不支持 上述GITHUB 文章 用的只是文字模型 我想要多模态模型
    我就不测试 文字模型 了 应该100t/s 没问题
    比较奇怪的是 我没想到prefill 快了

    GPU 限制 250w
    e02b4388-500a-4f29-a5eb-a5ac4aefe60b-image.jpeg

    模型

    Repo llmfan46/Qwen3.6-27B-uncensored-heretic-v2-GPTQ-Int4
    Multimodal ✅ vision (image input)
    MTP heads Present but disabled (0% accept on GPTQ)
    Native context 262,144 tokens
    Engine vLLM v0.21.0

    参数

    --model /models/heretic-gptq-int4
    --served-model-name qwen3.6-27b-heretic
    --quantization gptq_marlin
    --dtype float16
    --tensor-parallel-size 2              # both 3090s, real NVLink usage
    --max-model-len 262144                # 262K context
    --gpu-memory-utilization 0.92
    --max-num-seqs 2                      # 2 concurrent streams
    --max-num-batched-tokens 8192
    --kv-cache-dtype fp8_e5m2             # 1 byte/token KV
    --trust-remote-code
    --reasoning-parser qwen3              # routes <think> → reasoning_content
    --enable-auto-tool-choice
    --tool-call-parser qwen3_coder        # native Qwen3 tool format
    --enable-prefix-caching               # repeated prompts share KV
    --enable-chunked-prefill              # long prefill doesn't block decode
    --disable-custom-all-reduce           # MANDATORY for cross-NUMA setup
    

    测试

    Metric Value
    Decode (single-stream, steady) 67 t/s (同时2个对话同时 62t/s
    Prefill (4K prompt, warmed)** 1,289 t/s (同时2个对话 1,000 t/s)
    VRAM total ~43 GB / 48 GB
    rock shiR laihzang619L 2 条回复 最后回复
    2
    • A applejuice

      可以了
      用上nvlink
      但是不能用MTP 因为模型不支持 上述GITHUB 文章 用的只是文字模型 我想要多模态模型
      我就不测试 文字模型 了 应该100t/s 没问题
      比较奇怪的是 我没想到prefill 快了

      GPU 限制 250w
      e02b4388-500a-4f29-a5eb-a5ac4aefe60b-image.jpeg

      模型

      Repo llmfan46/Qwen3.6-27B-uncensored-heretic-v2-GPTQ-Int4
      Multimodal ✅ vision (image input)
      MTP heads Present but disabled (0% accept on GPTQ)
      Native context 262,144 tokens
      Engine vLLM v0.21.0

      参数

      --model /models/heretic-gptq-int4
      --served-model-name qwen3.6-27b-heretic
      --quantization gptq_marlin
      --dtype float16
      --tensor-parallel-size 2              # both 3090s, real NVLink usage
      --max-model-len 262144                # 262K context
      --gpu-memory-utilization 0.92
      --max-num-seqs 2                      # 2 concurrent streams
      --max-num-batched-tokens 8192
      --kv-cache-dtype fp8_e5m2             # 1 byte/token KV
      --trust-remote-code
      --reasoning-parser qwen3              # routes <think> → reasoning_content
      --enable-auto-tool-choice
      --tool-call-parser qwen3_coder        # native Qwen3 tool format
      --enable-prefix-caching               # repeated prompts share KV
      --enable-chunked-prefill              # long prefill doesn't block decode
      --disable-custom-all-reduce           # MANDATORY for cross-NUMA setup
      

      测试

      Metric Value
      Decode (single-stream, steady) 67 t/s (同时2个对话同时 62t/s
      Prefill (4K prompt, warmed)** 1,289 t/s (同时2个对话 1,000 t/s)
      VRAM total ~43 GB / 48 GB
      rock shiR 离线
      rock shiR 离线
      rock shi
      劳动模范
      发表于 最后由 编辑
      #15

      @applejuice 牛皮!这个速度已经很舒服了。hermes用子代理干活也能提高速度,3080最高能跑到70t/s

      A 1 条回复 最后回复
      0
      • rock shiR rock shi

        @applejuice 牛皮!这个速度已经很舒服了。hermes用子代理干活也能提高速度,3080最高能跑到70t/s

        A 离线
        A 离线
        applejuice
        劳动模范 德高望重
        发表于 最后由 编辑
        #16

        @rock-shi 说:

        @applejuice 牛皮!这个速度已经很舒服了。hermes用子代理干活也能提高速度,3080最高能跑到70t/s

        够用了
        先玩玩comfyui ✌

        1 条回复 最后回复
        0
        • V 离线
          V 离线
          vosrock
          德高望重 劳动模范
          发表于 最后由 编辑
          #17

          爽啊,速度另说,精度提高还是会舒服很多的

          1 条回复 最后回复
          0
          • A applejuice

            我暂时不大想搞了 先用上来 不然为了小小改善花上几天不值得 就好像以前玩3d打印机 一直搞打印机都不打印

            现在hermes 接入llama Qwen3.6-27B-uncensored-heretic
            kv Q8_0 216k context(还没试)
            prefill 800-900t/s
            全模态吞吐 40t/s
            也算可以用

            接下来玩下comfyUi

            nvlink 就有点浪费 多花了3000好像

            V 离线
            V 离线
            vosrock
            德高望重 劳动模范
            发表于 最后由 编辑
            #18

            @applejuice 反正我是一边折腾一边工作,有痛苦的时候,就是这次对话的改动很好,但是显存炸了,这个时候只有3T/S,你得等它慢慢总结,慢慢GIT
            27b也有过不去的坎,这个时候只能你自己告诉它怎么弄,我试过,它搞不定的,让他自己跑一个下午都跑不通,这里几天折腾,我的新软件也已经跑出来了。

            rock shiR 1 条回复 最后回复
            1
            • V vosrock

              @applejuice 反正我是一边折腾一边工作,有痛苦的时候,就是这次对话的改动很好,但是显存炸了,这个时候只有3T/S,你得等它慢慢总结,慢慢GIT
              27b也有过不去的坎,这个时候只能你自己告诉它怎么弄,我试过,它搞不定的,让他自己跑一个下午都跑不通,这里几天折腾,我的新软件也已经跑出来了。

              rock shiR 离线
              rock shiR 离线
              rock shi
              劳动模范
              发表于 最后由 编辑
              #19

              @vosrock 还得是大显存。40g显存可以一边跑模型一边打游戏哈哈,或者一边跑模型一边剪辑看视频

              V 1 条回复 最后回复
              0
              • rock shiR rock shi

                @vosrock 还得是大显存。40g显存可以一边跑模型一边打游戏哈哈,或者一边跑模型一边剪辑看视频

                V 离线
                V 离线
                vosrock
                德高望重 劳动模范
                发表于 最后由 编辑
                #20

                @rock-shi 你这么说有道理啊,一张卡跑HERMES,让HERMES调用另外一张卡跑图片或者视频
                我昨天还想来着,我如果想HERMES生图咋办,再跑COMFYUI没资源了啊,有两张卡就啥都解决了

                rock shiR 1 条回复 最后回复
                0
                • V vosrock

                  @rock-shi 你这么说有道理啊,一张卡跑HERMES,让HERMES调用另外一张卡跑图片或者视频
                  我昨天还想来着,我如果想HERMES生图咋办,再跑COMFYUI没资源了啊,有两张卡就啥都解决了

                  rock shiR 离线
                  rock shiR 离线
                  rock shi
                  劳动模范
                  发表于 最后由 编辑
                  #21

                  @vosrock 有条件还可以研究一下API的跑图,也都不贵,解放本地算力哈哈。

                  1 条回复 最后回复
                  0
                  • A applejuice

                    可以了
                    用上nvlink
                    但是不能用MTP 因为模型不支持 上述GITHUB 文章 用的只是文字模型 我想要多模态模型
                    我就不测试 文字模型 了 应该100t/s 没问题
                    比较奇怪的是 我没想到prefill 快了

                    GPU 限制 250w
                    e02b4388-500a-4f29-a5eb-a5ac4aefe60b-image.jpeg

                    模型

                    Repo llmfan46/Qwen3.6-27B-uncensored-heretic-v2-GPTQ-Int4
                    Multimodal ✅ vision (image input)
                    MTP heads Present but disabled (0% accept on GPTQ)
                    Native context 262,144 tokens
                    Engine vLLM v0.21.0

                    参数

                    --model /models/heretic-gptq-int4
                    --served-model-name qwen3.6-27b-heretic
                    --quantization gptq_marlin
                    --dtype float16
                    --tensor-parallel-size 2              # both 3090s, real NVLink usage
                    --max-model-len 262144                # 262K context
                    --gpu-memory-utilization 0.92
                    --max-num-seqs 2                      # 2 concurrent streams
                    --max-num-batched-tokens 8192
                    --kv-cache-dtype fp8_e5m2             # 1 byte/token KV
                    --trust-remote-code
                    --reasoning-parser qwen3              # routes <think> → reasoning_content
                    --enable-auto-tool-choice
                    --tool-call-parser qwen3_coder        # native Qwen3 tool format
                    --enable-prefix-caching               # repeated prompts share KV
                    --enable-chunked-prefill              # long prefill doesn't block decode
                    --disable-custom-all-reduce           # MANDATORY for cross-NUMA setup
                    

                    测试

                    Metric Value
                    Decode (single-stream, steady) 67 t/s (同时2个对话同时 62t/s
                    Prefill (4K prompt, warmed)** 1,289 t/s (同时2个对话 1,000 t/s)
                    VRAM total ~43 GB / 48 GB
                    laihzang619L 离线
                    laihzang619L 离线
                    laihzang619
                    编写于 最后由 编辑
                    #22

                    @applejuice 大佬 这个模型是默认就有视觉吗 还需要向别的模型一样需要下载一个投影层吗

                    A 1 条回复 最后回复
                    0
                    • laihzang619L laihzang619

                      @applejuice 大佬 这个模型是默认就有视觉吗 还需要向别的模型一样需要下载一个投影层吗

                      A 离线
                      A 离线
                      applejuice
                      劳动模范 德高望重
                      编写于 最后由 编辑
                      #23

                      @laihzang619 需要下载

                      1 条回复 最后回复
                      0
                      • laihzang619L 离线
                        laihzang619L 离线
                        laihzang619
                        编写于 最后由 编辑
                        #24

                        @applejuice 投影层的名字 或者下载地址 能麻烦给一个吗

                        A 1 条回复 最后回复
                        0
                        • laihzang619L laihzang619

                          @applejuice 投影层的名字 或者下载地址 能麻烦给一个吗

                          A 离线
                          A 离线
                          applejuice
                          劳动模范 德高望重
                          编写于 最后由 编辑
                          #25

                          @laihzang619 我刚查了一下
                          原来不需要
                          应该是我之前的那个需要

                          很多都是ai 自动设置所以我也忘了😮

                          1 条回复 最后回复
                          0
                          • Leon YL 离线
                            Leon YL 离线
                            Leon Y
                            编写于 最后由 编辑
                            #26

                            Qwen3.6-27B我也是上不了多模态,只能退回到Qwen3-VL

                            1 条回复 最后回复
                            0
                            • Leon YL 离线
                              Leon YL 离线
                              Leon Y
                              编写于 最后由 编辑
                              #27

                              我的也是3090x2+NVLink,vLLM跑Qwen3.6-27B 性能
                              Narrative
                              • 吞吐: 92.4 tok/s

                              Code
                              • 吞吐: 99.0 tok/s

                              A Larry WangL 2 条回复 最后回复
                              0
                              • Leon YL Leon Y

                                我的也是3090x2+NVLink,vLLM跑Qwen3.6-27B 性能
                                Narrative
                                • 吞吐: 92.4 tok/s

                                Code
                                • 吞吐: 99.0 tok/s

                                A 离线
                                A 离线
                                applejuice
                                劳动模范 德高望重
                                编写于 最后由 编辑
                                #28

                                @Leon-Y prefill 呢?

                                Leon YL 1 条回复 最后回复
                                0
                                • Leon YL Leon Y

                                  我的也是3090x2+NVLink,vLLM跑Qwen3.6-27B 性能
                                  Narrative
                                  • 吞吐: 92.4 tok/s

                                  Code
                                  • 吞吐: 99.0 tok/s

                                  Larry WangL 离线
                                  Larry WangL 离线
                                  Larry Wang
                                  编写于 最后由 编辑
                                  #29

                                  @Leon-Y 3090的nvlink在哪里买?多少钱呀?

                                  Leon YL 1 条回复 最后回复
                                  0
                                  • Larry WangL Larry Wang

                                    @Leon-Y 3090的nvlink在哪里买?多少钱呀?

                                    Leon YL 离线
                                    Leon YL 离线
                                    Leon Y
                                    编写于 最后由 编辑
                                    #30

                                    @Larry-Wang 说:

                                    @Leon-Y 3090的nvlink在哪里买?多少钱呀?

                                    taobao, RMB2500

                                    A 1 条回复 最后回复
                                    0
                                    • A applejuice

                                      @Leon-Y prefill 呢?

                                      Leon YL 离线
                                      Leon YL 离线
                                      Leon Y
                                      编写于 最后由 编辑
                                      #31

                                      @applejuice 说:

                                      @Leon-Y prefill 呢?

                                      忘了看了

                                      1 条回复 最后回复
                                      0
                                      • Leon YL Leon Y

                                        @Larry-Wang 说:

                                        @Leon-Y 3090的nvlink在哪里买?多少钱呀?

                                        taobao, RMB2500

                                        A 离线
                                        A 离线
                                        applejuice
                                        劳动模范 德高望重
                                        编写于 最后由 编辑
                                        #32

                                        @Leon-Y 说:

                                        @Larry-Wang 说:

                                        @Leon-Y 3090的nvlink在哪里买?多少钱呀?

                                        taobao, RMB2500

                                        3槽的吧? 那么贵

                                        1 条回复 最后回复
                                        0
                                        • A applejuice

                                          声明:这篇东西是叫AI 总结的

                                          交作业。双 3090 跑 Qwen3.6-27B,测了上下文深度对速度的影响

                                          GPU:RTX 3090 ×2,已上 NVLink(nvidia-smi topo -m 显示 NV4,4 条 link 各 14GB/s,约 56GB/s)
                                          模型:Qwen3.6-27B-UD-Q4_K_XL(unsloth 动态量化) --- 下载错了 将就用
                                          引擎:llama.cpp 自编译(CUDA),layer-split(默认模式)
                                          KV cache:q8_0,上下文 153600
                                          开了 MTP(--spec-type draft-mtp --spec-draft-n-max 3)、flash-attn

                                          测试方法: 每次冷 prefill,关掉 prompt cache,数字比较实在。脚本跑 /completion 读 timings。
                                          prompt_n | prefill t/s | gen t/s | 总显存 | 功耗
                                          782 | 708.8 | 59.2 | 34.7G | 440W
                                          6155 | 1285.9 | 58.5 | 34.8G | 436W
                                          24587 | 1249.5 | 54.6 | 34.8G | 441W
                                          98315 | 835.4 | 47.4 | 34.8G | 441W
                                          135017 | 694.2 | 43.2 | 34.8G | 444W

                                          解码 59 → 43 t/s,从 800 一路到 135K 上下文只掉 27%,曲线相当平,不像单卡过了 64K 就断崖
                                          显存全程稳定 34.7G(KV cache 启动时按满 context 预分配),48G 总显存还剩富裕,上下文还能再往上拉
                                          prefill 在中段(6K~24K)能冲到 1250+ t/s,深上下文回落到 700 左右
                                          双卡 layer-split,两张卡轮流跑,速度约等于单卡——双卡的收益主要是"显存容量",能塞下深上下文
                                          功耗双卡合计稳定 ~440W

                                          一开始先用vllm 跑两张卡 结果只有7t/s, 所以先用上llama 然后在看能不能用上NVLINK
                                          现在还叫claude 解决vllm 然后测试

                                          T 离线
                                          T 离线
                                          topgun2000
                                          编写于 最后由 topgun2000 编辑
                                          #33

                                          @applejuice 我和你试了几乎完全一样的设置Qwen3.6-27B-UD-Q4_K_XL,不过是单卡4090 24GB,所以上下文只能装120000。MTP开了以后大概能85~90tps,不开大概45tps,vram用了23GB

                                          1 条回复 最后回复
                                          0

                                          你好!看起来您对这段对话很感兴趣,但您还没有一个账号。

                                          厌倦了每次访问都刷到同样的帖子?您注册账号后,您每次返回时都能精准定位到您上次浏览的位置,并可选择接收新回复通知(通过邮件或推送通知)。您还能收藏书签、为帖子顶,向社区成员表达您的欣赏。

                                          有了你的建议,这篇帖子会更精彩哦 💗

                                          注册 登录
                                          回复
                                          • 在新帖中回复
                                          登录后回复
                                          • 从旧到新
                                          • 从新到旧
                                          • 最多赞同


                                          • 登录

                                          • 没有帐号? 注册

                                          • 第一个帖子
                                            最后一个帖子
                                          0
                                          • 版块
                                          • 最新
                                          • 标签
                                          • 热门
                                          • 用户
                                          • 群组