跳转至内容
  • 版块
  • 最新
  • 标签
  • 热门
  • 用户
  • 群组
皮肤
  • 浅色
  • Brite
  • Cerulean
  • Cosmo
  • Flatly
  • Journal
  • Litera
  • Lumen
  • Lux
  • Materia
  • Minty
  • Morph
  • Pulse
  • Sandstone
  • Simplex
  • Sketchy
  • Spacelab
  • United
  • Yeti
  • Zephyr
  • 深色
  • Cyborg
  • Darkly
  • Quartz
  • Slate
  • Solar
  • Superhero
  • Vapor

  • 默认(不使用皮肤)
  • 不使用皮肤
折叠
品牌标识

抡锤者

  1. 主页
  2. AI硬件
  3. 双 3090(NVLink)跑 Qwen3.6-27B,128K 上下文实测

双 3090(NVLink)跑 Qwen3.6-27B,128K 上下文实测

已定时 已固定 已锁定 已移动 AI硬件
nvidiartx3090multi-gpu
44 帖子 16 发布者 1.4k 浏览 2 关注中
  • 从旧到新
  • 从新到旧
  • 最多赞同
回复
  • 在新帖中回复
登录后回复
此主题已被删除。只有拥有主题管理权限的用户可以查看。
  • T topgun2000

    @applejuice 我觉得结果很不错,NVlink通信损失小,TP是算力叠加,所以2x3090在这种情况下tps能接近或者等同单卡4090算力,而且上下文能更多

    @Leon-Y 为什么你的数据比 @applejuice 的好很多?

    A 离线
    A 离线
    applejuice
    劳动模范 德高望重
    编写于 最后由 编辑
    #35

    @topgun2000 模型不一样
    如果用那个模型 开mtp 结果差不多

    T 1 条回复 最后回复
    0
    • A applejuice

      @topgun2000 模型不一样
      如果用那个模型 开mtp 结果差不多

      T 离线
      T 离线
      topgun2000
      编写于 最后由 topgun2000 编辑
      #36

      @applejuice 了解了,他用的是int4的文字模型,所以TP更快一些

      1 条回复 最后回复
      0
      • A applejuice

        声明:这篇东西是叫AI 总结的

        交作业。双 3090 跑 Qwen3.6-27B,测了上下文深度对速度的影响

        GPU:RTX 3090 ×2,已上 NVLink(nvidia-smi topo -m 显示 NV4,4 条 link 各 14GB/s,约 56GB/s)
        模型:Qwen3.6-27B-UD-Q4_K_XL(unsloth 动态量化) --- 下载错了 将就用
        引擎:llama.cpp 自编译(CUDA),layer-split(默认模式)
        KV cache:q8_0,上下文 153600
        开了 MTP(--spec-type draft-mtp --spec-draft-n-max 3)、flash-attn

        测试方法: 每次冷 prefill,关掉 prompt cache,数字比较实在。脚本跑 /completion 读 timings。
        prompt_n | prefill t/s | gen t/s | 总显存 | 功耗
        782 | 708.8 | 59.2 | 34.7G | 440W
        6155 | 1285.9 | 58.5 | 34.8G | 436W
        24587 | 1249.5 | 54.6 | 34.8G | 441W
        98315 | 835.4 | 47.4 | 34.8G | 441W
        135017 | 694.2 | 43.2 | 34.8G | 444W

        解码 59 → 43 t/s,从 800 一路到 135K 上下文只掉 27%,曲线相当平,不像单卡过了 64K 就断崖
        显存全程稳定 34.7G(KV cache 启动时按满 context 预分配),48G 总显存还剩富裕,上下文还能再往上拉
        prefill 在中段(6K~24K)能冲到 1250+ t/s,深上下文回落到 700 左右
        双卡 layer-split,两张卡轮流跑,速度约等于单卡——双卡的收益主要是"显存容量",能塞下深上下文
        功耗双卡合计稳定 ~440W

        一开始先用vllm 跑两张卡 结果只有7t/s, 所以先用上llama 然后在看能不能用上NVLINK
        现在还叫claude 解决vllm 然后测试

        qw erQ 离线
        qw erQ 离线
        qw er
        编写于 最后由 编辑
        #37

        @applejuice 兄弟 哪个主板可以插双3090啊 这个卡台厚了 论坛洋垃圾的主板行吗

        A E 2 条回复 最后回复
        0
        • qw erQ qw er

          @applejuice 兄弟 哪个主板可以插双3090啊 这个卡台厚了 论坛洋垃圾的主板行吗

          A 离线
          A 离线
          applejuice
          劳动模范 德高望重
          编写于 最后由 编辑
          #38

          @qw-er 说:

          @applejuice 兄弟 哪个主板可以插双3090啊 这个卡台厚了 论坛洋垃圾的主板行吗

          我的是涡轮卡
          一张卡占 2 条 正常间距的pcie16

          我用的是x10-x99-8d
          只有双路的pcie 16间距 才能插nvlink

          1 条回复 最后回复
          0
          • qw erQ qw er

            @applejuice 兄弟 哪个主板可以插双3090啊 这个卡台厚了 论坛洋垃圾的主板行吗

            E 离线
            E 离线
            ezios
            编写于 最后由 编辑
            #39

            @qw-er
            不如买个架子
            fe8d859d-e2b1-4235-8d71-a6acb5077c49-image.jpeg

            mei liM A 2 条回复 最后回复
            0
            • 潘旭高潘 离线
              潘旭高潘 离线
              潘旭高
              编写于 最后由 编辑
              #40

              有没有配置清单,我都纠结几天了,是买两个3090还是买1个4080S

              A 1 条回复 最后回复
              0
              • E ezios

                @qw-er
                不如买个架子
                fe8d859d-e2b1-4235-8d71-a6acb5077c49-image.jpeg

                mei liM 离线
                mei liM 离线
                mei li
                德高望重 劳动模范
                编写于 最后由 编辑
                #41

                @ezios 牛逼但是木板不导热

                1 条回复 最后回复
                0
                • 潘旭高潘 潘旭高

                  有没有配置清单,我都纠结几天了,是买两个3090还是买1个4080S

                  A 离线
                  A 离线
                  applejuice
                  劳动模范 德高望重
                  编写于 最后由 编辑
                  #42

                  @潘旭高 说:

                  有没有配置清单,我都纠结几天了,是买两个3090还是买1个4080S

                  不怕吵 不怕热 3090

                  1 条回复 最后回复
                  0
                  • E ezios

                    @qw-er
                    不如买个架子
                    fe8d859d-e2b1-4235-8d71-a6acb5077c49-image.jpeg

                    A 离线
                    A 离线
                    applejuice
                    劳动模范 德高望重
                    编写于 最后由 applejuice 编辑
                    #43

                    @ezios 说:

                    @qw-er
                    不如买个架子
                    fe8d859d-e2b1-4235-8d71-a6acb5077c49-image.jpeg

                    我的nvlink 好像有问题 寄给卖家 一个星期多 还没消息
                    你买这个多少钱

                    箱子颜值高点✌

                    E 1 条回复 最后回复
                    1
                    • A applejuice

                      @ezios 说:

                      @qw-er
                      不如买个架子
                      fe8d859d-e2b1-4235-8d71-a6acb5077c49-image.jpeg

                      我的nvlink 好像有问题 寄给卖家 一个星期多 还没消息
                      你买这个多少钱

                      箱子颜值高点✌

                      E 离线
                      E 离线
                      ezios
                      编写于 最后由 ezios 编辑
                      #44

                      @applejuice 架子65,延长线贵延长线要¥69,30厘米的

                      nvlink是卖显卡那个二手店套餐送的

                      1 条回复 最后回复
                      0

                      你好!看起来您对这段对话很感兴趣,但您还没有一个账号。

                      厌倦了每次访问都刷到同样的帖子?您注册账号后,您每次返回时都能精准定位到您上次浏览的位置,并可选择接收新回复通知(通过邮件或推送通知)。您还能收藏书签、为帖子顶,向社区成员表达您的欣赏。

                      有了你的建议,这篇帖子会更精彩哦 💗

                      注册 登录
                      回复
                      • 在新帖中回复
                      登录后回复
                      • 从旧到新
                      • 从新到旧
                      • 最多赞同


                      • 登录

                      • 没有帐号? 注册

                      • 第一个帖子
                        最后一个帖子
                      0
                      • 版块
                      • 最新
                      • 标签
                      • 热门
                      • 用户
                      • 群组