跳转至内容
  • 版块
  • 最新
  • 标签
  • 热门
  • 用户
  • 群组
皮肤
  • 浅色
  • Brite
  • Cerulean
  • Cosmo
  • Flatly
  • Journal
  • Litera
  • Lumen
  • Lux
  • Materia
  • Minty
  • Morph
  • Pulse
  • Sandstone
  • Simplex
  • Sketchy
  • Spacelab
  • United
  • Yeti
  • Zephyr
  • 深色
  • Cyborg
  • Darkly
  • Quartz
  • Slate
  • Solar
  • Superhero
  • Vapor

  • 默认(不使用皮肤)
  • 不使用皮肤
折叠
品牌标识

抡锤者

  1. 主页
  2. AI硬件
  3. 洋垃圾的回乡路 —— 2x3090 + X99 + 2x2680v4

洋垃圾的回乡路 —— 2x3090 + X99 + 2x2680v4

已定时 置顶直到 2026/6/12 01:42 已锁定 已移动 AI硬件
x99rtx3090
28 帖子 8 发布者 292 浏览 2 关注中
  • 从旧到新
  • 从新到旧
  • 最多赞同
回复
  • 在新帖中回复
登录后回复
此主题已被删除。只有拥有主题管理权限的用户可以查看。
  • Ray WangR Ray Wang

    @applejuice 话说你跑大模型大概能到多少TPS呢,我看你之前的作业,只有烤机,没有写跑分

    A 离线
    A 离线
    applejuice
    编写于 最后由 applejuice 编辑
    #10

    @Ray-Wang 说:

    @applejuice 话说你跑大模型大概能到多少TPS呢,我看你之前的作业,只有烤机,没有写跑分

    VLLM, 上面那张限制230w,下面那张限制240w

    vLLM 启动参数 (docker-compose.yml)

    --model /models/heretic-gptq-int4
    --served-model-name qwen3.6-27b-heretic
    --quantization gptq_marlin
    --dtype float16
    --tensor-parallel-size 2
    --max-model-len 262144
    --gpu-memory-utilization 0.9        # via ~/vllm/.env: GPU_MEM_UTIL=0.9  - 之前设置0.932 但是用下来显存到了23.4x, 所以我把它降下来
    --max-num-seqs 2
    --max-num-batched-tokens 8192
    --kv-cache-dtype fp8_e5m2
    --trust-remote-code
    --reasoning-parser qwen3
    --enable-auto-tool-choice
    --tool-call-parser qwen3_coder
    --enable-prefix-caching
    --enable-chunked-prefill
    --disable-custom-all-reduce         
    --host 0.0.0.0
    --port 8000
    

    测试结果 NVLINK

    测试项目 数值
    首响应时间 TTFT(短 prompt,冷启动) 163 ms
    总响应时间(10 tokens) 293 ms
    Prefill 1K 1,991 tok/s
    Prefill 4K 2,036 tok/s
    Prefill 16K 1,985 tok/s
    Decode(单流) 69.3 tok/s
    50K prompt 冷启动 TTFT 25.06 秒
    50K prompt 缓存命中 TTFT 0.69 秒
    缓存加速比 36.5×

    没有NVLINK

    Prefill 4K 重复测量 (5 次)

    run prompt_tokens ttft tok/s
    1 3 836 2 776 ms 1 382
    2 3 836 2 735 ms 1 403
    3 3 834 2 665 ms 1 439
    4 3 833 2 770 ms 1 384
    5 3 838 2 772 ms 1 384

    mean=1 398, median=1 384, min=1 382, max=1 439. σ ≈ 22 tok/s (1.6% 变化) — 极稳,退化是稳态而非瞬态。

    Decode 单流 重复测量 (4 次)

    run prompt_tokens completion_tokens ttft decode tok/s
    1 76 220 256 ms 66.2
    2 79 220 278 ms 66.6
    3 81 220 284 ms 66.7
    4 80 220 284 ms 66.7
    Ray WangR 1 条回复 最后回复
    0
    • kos orK 在线
      kos orK 在线
      kos or
      编写于 最后由 kos or 编辑
      #11

      謝謝樓主分享, 我的配置跟你很像 目前正在備貨,
      請問這PCIe x 16 Riser adapter 長度是多少cm ?
      我在考慮要買 15, 20, or 25 cm 哪種規格

      54e2d2d0-986b-4e20-b781-fd5a6fe2ac99-image.jpeg

      Ray WangR 1 条回复 最后回复
      0
      • kos orK kos or

        謝謝樓主分享, 我的配置跟你很像 目前正在備貨,
        請問這PCIe x 16 Riser adapter 長度是多少cm ?
        我在考慮要買 15, 20, or 25 cm 哪種規格

        54e2d2d0-986b-4e20-b781-fd5a6fe2ac99-image.jpeg

        Ray WangR 在线
        Ray WangR 在线
        Ray Wang
        编写于 最后由 编辑
        #12

        @kos-or 我买的25cm的,一言难尽,放到最边上有点短会有点扯,放到中间又很长有点折,但好歹没什么大问题,建议你架子到手了以后,把gpu排好了,自己测量一下再买线。

        kos orK 1 条回复 最后回复
        0
        • A applejuice

          @Ray-Wang 说:

          @applejuice 话说你跑大模型大概能到多少TPS呢,我看你之前的作业,只有烤机,没有写跑分

          VLLM, 上面那张限制230w,下面那张限制240w

          vLLM 启动参数 (docker-compose.yml)

          --model /models/heretic-gptq-int4
          --served-model-name qwen3.6-27b-heretic
          --quantization gptq_marlin
          --dtype float16
          --tensor-parallel-size 2
          --max-model-len 262144
          --gpu-memory-utilization 0.9        # via ~/vllm/.env: GPU_MEM_UTIL=0.9  - 之前设置0.932 但是用下来显存到了23.4x, 所以我把它降下来
          --max-num-seqs 2
          --max-num-batched-tokens 8192
          --kv-cache-dtype fp8_e5m2
          --trust-remote-code
          --reasoning-parser qwen3
          --enable-auto-tool-choice
          --tool-call-parser qwen3_coder
          --enable-prefix-caching
          --enable-chunked-prefill
          --disable-custom-all-reduce         
          --host 0.0.0.0
          --port 8000
          

          测试结果 NVLINK

          测试项目 数值
          首响应时间 TTFT(短 prompt,冷启动) 163 ms
          总响应时间(10 tokens) 293 ms
          Prefill 1K 1,991 tok/s
          Prefill 4K 2,036 tok/s
          Prefill 16K 1,985 tok/s
          Decode(单流) 69.3 tok/s
          50K prompt 冷启动 TTFT 25.06 秒
          50K prompt 缓存命中 TTFT 0.69 秒
          缓存加速比 36.5×

          没有NVLINK

          Prefill 4K 重复测量 (5 次)

          run prompt_tokens ttft tok/s
          1 3 836 2 776 ms 1 382
          2 3 836 2 735 ms 1 403
          3 3 834 2 665 ms 1 439
          4 3 833 2 770 ms 1 384
          5 3 838 2 772 ms 1 384

          mean=1 398, median=1 384, min=1 382, max=1 439. σ ≈ 22 tok/s (1.6% 变化) — 极稳,退化是稳态而非瞬态。

          Decode 单流 重复测量 (4 次)

          run prompt_tokens completion_tokens ttft decode tok/s
          1 76 220 256 ms 66.2
          2 79 220 278 ms 66.6
          3 81 220 284 ms 66.7
          4 80 220 284 ms 66.7
          Ray WangR 在线
          Ray WangR 在线
          Ray Wang
          编写于 最后由 编辑
          #13

          @applejuice 好像跟我这code成绩差不多,但你功耗低很多,明天我跑一下试试

          A 1 条回复 最后回复
          0
          • Ray WangR Ray Wang

            @kos-or 我买的25cm的,一言难尽,放到最边上有点短会有点扯,放到中间又很长有点折,但好歹没什么大问题,建议你架子到手了以后,把gpu排好了,自己测量一下再买线。

            kos orK 在线
            kos orK 在线
            kos or
            编写于 最后由 编辑
            #14

            @Ray-Wang 感謝建議 !我等礦機架到了再實際量測 購買Riser
            我有其他礦機架小型的 大約6~8 GPU-sized 你的屬於挑高型 我剛實際量測加上照片目測 你的顯卡支撐條大概挑高了約10cm , 這樣的設計對於你主板CPU上的大型Heatsinnk 是有利的

            1 条回复 最后回复
            0
            • kos orK 在线
              kos orK 在线
              kos or
              编写于 最后由 编辑
              #15

              我們用這種Open Rack 熱氣肯定有的 (夏天快到了更受不了) ,
              除了Power Limit之外 , 就是用電風扇和窗型排風扇 產生空氣流通

              5845f593-b077-4c3c-9702-6226e80dd53b-image.jpeg

              1 条回复 最后回复
              0
              • kos orK 在线
                kos orK 在线
                kos or
                编写于 最后由 编辑
                #16

                我想幫Open Rack 設計一個機殼 製造空氣流通airflow 也能保護設備 避免灰塵累積

                Ray WangR 1 条回复 最后回复
                0
                • AGIA 离线
                  AGIA 离线
                  AGI
                  编写于 最后由 AGI 编辑
                  #17

                  折腾硬件很是麻烦。两年前买的Dell T5810,没有买华南散件,因为dell的质量的确很牛,二是因为放到家里当homelab的,不需要显卡。没想到两年后,显卡和电源成了制约因素。所以前几天买了蓝宝石7900xtx和1000w电源套装,电源专供显卡供电,还需要买一个同步启动器,拼多多10块钱,只能这样凑合着,想入第二块7900xtx,还放不下了,不想外置。
                  机箱盖子无法正常盖好,也挺好,llm满载的时候,把盖子挪走,温度降低10度...

                  d0c6a0e8b727829c66648fdf292a9fe0.jpeg
                  68bcbaad0c6426dd144aa99c4687a95a.jpeg

                  Ray WangR 1 条回复 最后回复
                  2
                  • Ray WangR Ray Wang

                    @applejuice 好像跟我这code成绩差不多,但你功耗低很多,明天我跑一下试试

                    A 离线
                    A 离线
                    applejuice
                    编写于 最后由 编辑
                    #18

                    @Ray-Wang 说:

                    @applejuice 好像跟我这code成绩差不多,但你功耗低很多,明天我跑一下试试

                    测了3090 300w 跟250w 只差5-10%
                    230w 跟 250w 好像也只有5%的样子

                    所以限制230w-250w = 差不多就有90% 的效率

                    1 条回复 最后回复
                    0
                    • P 在线
                      P 在线
                      passss
                      编写于 最后由 编辑
                      #19

                      楼主双3090用多大的电源?我1200W跑27b-mtp不限制到300W以下就要重启

                      Leon YL Ray WangR 2 条回复 最后回复
                      0
                      • K koala 被引用 于这个主题
                      • A 离线
                        A 离线
                        applejuice
                        编写于 最后由 编辑
                        #20

                        楼主,你的kmv 有视频输出吗? 我的一直显示no signal,我没什么用所以没理他 但是始终放在心里

                        Ray WangR 1 条回复 最后回复
                        0
                        • P passss

                          楼主双3090用多大的电源?我1200W跑27b-mtp不限制到300W以下就要重启

                          Leon YL 离线
                          Leon YL 离线
                          Leon Y
                          编写于 最后由 编辑
                          #21

                          @passss 说:

                          楼主双3090用多大的电源?我1200W跑27b-mtp不限制到300W以下就要重启

                          我用的Corsair RM1000X, 同时满载300W稳稳的,双3090卡换了新的硅脂和散热贴,温度压在75度左右,就是风扇噪音有点吓人

                          A 1 条回复 最后回复
                          0
                          • P passss

                            楼主双3090用多大的电源?我1200W跑27b-mtp不限制到300W以下就要重启

                            Ray WangR 在线
                            Ray WangR 在线
                            Ray Wang
                            编写于 最后由 编辑
                            #22

                            @passss 嗯,现实就是,哪怕限制到300w,瞬时峰值还是有可能冲到400w以上。

                            我之前挖矿7、8台GPU一起跑,而且美国这边是110v家用电,上大瓦数不好上,所以我用的都是多电源模式。现在这个配置是两个850w电源,中间用一个add2psu(下图)同步启动器。2号电源的24针插到这上面,然后接一根molex到1号电源上,就可以做到两台电源同时启动了。

                            两个电源分别带一个GPU,完全够用。这套东西是经过广大矿工考验的😅 ,安全可靠。你有条件的话可以也像我这样再加个电源,我觉得比折腾一个大电源省事一点。

                            5be28026-d948-439d-8940-d7ec6cf45b01-image.jpeg

                            1 条回复 最后回复
                            0
                            • A applejuice

                              楼主,你的kmv 有视频输出吗? 我的一直显示no signal,我没什么用所以没理他 但是始终放在心里

                              Ray WangR 在线
                              Ray WangR 在线
                              Ray Wang
                              编写于 最后由 编辑
                              #23

                              @applejuice 没有,感觉用不到,我也没有VGA线哈哈。过几天我把IPMI装上就完全满足我需求了。

                              1 条回复 最后回复
                              0
                              • AGIA AGI

                                折腾硬件很是麻烦。两年前买的Dell T5810,没有买华南散件,因为dell的质量的确很牛,二是因为放到家里当homelab的,不需要显卡。没想到两年后,显卡和电源成了制约因素。所以前几天买了蓝宝石7900xtx和1000w电源套装,电源专供显卡供电,还需要买一个同步启动器,拼多多10块钱,只能这样凑合着,想入第二块7900xtx,还放不下了,不想外置。
                                机箱盖子无法正常盖好,也挺好,llm满载的时候,把盖子挪走,温度降低10度...

                                d0c6a0e8b727829c66648fdf292a9fe0.jpeg
                                68bcbaad0c6426dd144aa99c4687a95a.jpeg

                                Ray WangR 在线
                                Ray WangR 在线
                                Ray Wang
                                编写于 最后由 编辑
                                #24

                                @AGI 哎,我这台机器本来也是准备进柜的。但是几年前买这个机柜时候啥也不懂,买的是那种很浅的,只能放点Switch这些小设备...

                                1 条回复 最后回复
                                0
                                • kos orK kos or

                                  我想幫Open Rack 設計一個機殼 製造空氣流通airflow 也能保護設備 避免灰塵累積

                                  Ray WangR 在线
                                  Ray WangR 在线
                                  Ray Wang
                                  编写于 最后由 编辑
                                  #25

                                  @kos-or 🙄 我太懒了,主要我有条件扔地下室,所以直接摆了一台风扇在那24小时吹着... 压力测试了一下,E5其实发热不大,然后GPU的话还有专门的机箱120mm风扇吹着,问题也不大。

                                  1 条回复 最后回复
                                  0
                                  • Leon YL Leon Y

                                    @passss 说:

                                    楼主双3090用多大的电源?我1200W跑27b-mtp不限制到300W以下就要重启

                                    我用的Corsair RM1000X, 同时满载300W稳稳的,双3090卡换了新的硅脂和散热贴,温度压在75度左右,就是风扇噪音有点吓人

                                    A 离线
                                    A 离线
                                    applejuice
                                    编写于 最后由 applejuice 编辑
                                    #26

                                    @Leon-Y 说:

                                    @passss 说:

                                    楼主双3090用多大的电源?我1200W跑27b-mtp不限制到300W以下就要重启

                                    我用的Corsair RM1000X, 同时满载300W稳稳的,双3090卡换了新的硅脂和散热贴,温度压在75度左右,就是风扇噪音有点吓人

                                    75度真低,我280w 都快80
                                    多几天装机箱前3个风扇 希望会帮助

                                    1 条回复 最后回复
                                    0
                                    • kos orK 在线
                                      kos orK 在线
                                      kos or
                                      编写于 最后由 编辑
                                      #27

                                      旁邊好像有一台3D打印機 能結合AI設計打印嗎?
                                      我沒用過3D打印機

                                      Ray WangR 1 条回复 最后回复
                                      0
                                      • kos orK kos or

                                        旁邊好像有一台3D打印機 能結合AI設計打印嗎?
                                        我沒用過3D打印機

                                        Ray WangR 在线
                                        Ray WangR 在线
                                        Ray Wang
                                        编写于 最后由 编辑
                                        #28

                                        @kos-or 我之前看到过有个CAD harness,可以让ai做cad,但是具体还没研究过。我搞CAD不专业,打印机买来给儿子打印玩具的...

                                        1 条回复 最后回复
                                        0

                                        你好!看起来您对这段对话很感兴趣,但您还没有一个账号。

                                        厌倦了每次访问都刷到同样的帖子?您注册账号后,您每次返回时都能精准定位到您上次浏览的位置,并可选择接收新回复通知(通过邮件或推送通知)。您还能收藏书签、为帖子顶,向社区成员表达您的欣赏。

                                        有了你的建议,这篇帖子会更精彩哦 💗

                                        注册 登录
                                        回复
                                        • 在新帖中回复
                                        登录后回复
                                        • 从旧到新
                                        • 从新到旧
                                        • 最多赞同


                                        • 登录

                                        • 没有帐号? 注册

                                        • 登录或注册以进行搜索。
                                        • 第一个帖子
                                          最后一个帖子
                                        0
                                        • 版块
                                        • 最新
                                        • 标签
                                        • 热门
                                        • 用户
                                        • 群组