跳转至内容
  • 版块
  • 最新
  • 标签
  • 热门
  • 用户
  • 群组
皮肤
  • 浅色
  • Brite
  • Cerulean
  • Cosmo
  • Flatly
  • Journal
  • Litera
  • Lumen
  • Lux
  • Materia
  • Minty
  • Morph
  • Pulse
  • Sandstone
  • Simplex
  • Sketchy
  • Spacelab
  • United
  • Yeti
  • Zephyr
  • 深色
  • Cyborg
  • Darkly
  • Quartz
  • Slate
  • Solar
  • Superhero
  • Vapor

  • 默认(不使用皮肤)
  • 不使用皮肤
折叠
品牌标识

抡锤者

  1. 主页
  2. AI硬件
  3. 洋垃圾的回乡路 —— 2x3090 + X99 + 2x2680v4

洋垃圾的回乡路 —— 2x3090 + X99 + 2x2680v4

已定时 置顶直到 2026/6/12 01:42 已锁定 已移动 AI硬件
x99rtx3090
28 帖子 8 发布者 292 浏览 2 关注中
  • 从旧到新
  • 从新到旧
  • 最多赞同
回复
  • 在新帖中回复
登录后回复
此主题已被删除。只有拥有主题管理权限的用户可以查看。
  • A 离线
    A 离线
    applejuice
    编写于 最后由 applejuice 编辑
    #5

    一样硬件🤝
    但是这个东西放在房间不得热死?

    双路cpu 好像会有延迟?

    Ray WangR 1 条回复 最后回复
    0
    • terryT terry

      很不错,这个装修风格,专门弄了个机房?

      Ray WangR 在线
      Ray WangR 在线
      Ray Wang
      编写于 最后由 编辑
      #6

      @terry 这是我家地下室😂

      1 条回复 最后回复
      0
      • A applejuice

        一样硬件🤝
        但是这个东西放在房间不得热死?

        双路cpu 好像会有延迟?

        Ray WangR 在线
        Ray WangR 在线
        Ray Wang
        编写于 最后由 编辑
        #7

        @applejuice 地下室,随便它怎么叫唤我也听不到,延迟的事情我得研究一下。

        1 条回复 最后回复
        1
        • A 离线
          A 离线
          applejuice
          编写于 最后由 编辑
          #8

          有地下室真好 我放在房间外面 整个空间都可以感觉热气

          Ray WangR 1 条回复 最后回复
          0
          • A applejuice

            有地下室真好 我放在房间外面 整个空间都可以感觉热气

            Ray WangR 在线
            Ray WangR 在线
            Ray Wang
            编写于 最后由 编辑
            #9

            @applejuice 话说你跑大模型大概能到多少TPS呢,我看你之前的作业,只有烤机,没有写跑分

            A 1 条回复 最后回复
            0
            • Ray WangR Ray Wang

              @applejuice 话说你跑大模型大概能到多少TPS呢,我看你之前的作业,只有烤机,没有写跑分

              A 离线
              A 离线
              applejuice
              编写于 最后由 applejuice 编辑
              #10

              @Ray-Wang 说:

              @applejuice 话说你跑大模型大概能到多少TPS呢,我看你之前的作业,只有烤机,没有写跑分

              VLLM, 上面那张限制230w,下面那张限制240w

              vLLM 启动参数 (docker-compose.yml)

              --model /models/heretic-gptq-int4
              --served-model-name qwen3.6-27b-heretic
              --quantization gptq_marlin
              --dtype float16
              --tensor-parallel-size 2
              --max-model-len 262144
              --gpu-memory-utilization 0.9        # via ~/vllm/.env: GPU_MEM_UTIL=0.9  - 之前设置0.932 但是用下来显存到了23.4x, 所以我把它降下来
              --max-num-seqs 2
              --max-num-batched-tokens 8192
              --kv-cache-dtype fp8_e5m2
              --trust-remote-code
              --reasoning-parser qwen3
              --enable-auto-tool-choice
              --tool-call-parser qwen3_coder
              --enable-prefix-caching
              --enable-chunked-prefill
              --disable-custom-all-reduce         
              --host 0.0.0.0
              --port 8000
              

              测试结果 NVLINK

              测试项目 数值
              首响应时间 TTFT(短 prompt,冷启动) 163 ms
              总响应时间(10 tokens) 293 ms
              Prefill 1K 1,991 tok/s
              Prefill 4K 2,036 tok/s
              Prefill 16K 1,985 tok/s
              Decode(单流) 69.3 tok/s
              50K prompt 冷启动 TTFT 25.06 秒
              50K prompt 缓存命中 TTFT 0.69 秒
              缓存加速比 36.5×

              没有NVLINK

              Prefill 4K 重复测量 (5 次)

              run prompt_tokens ttft tok/s
              1 3 836 2 776 ms 1 382
              2 3 836 2 735 ms 1 403
              3 3 834 2 665 ms 1 439
              4 3 833 2 770 ms 1 384
              5 3 838 2 772 ms 1 384

              mean=1 398, median=1 384, min=1 382, max=1 439. σ ≈ 22 tok/s (1.6% 变化) — 极稳,退化是稳态而非瞬态。

              Decode 单流 重复测量 (4 次)

              run prompt_tokens completion_tokens ttft decode tok/s
              1 76 220 256 ms 66.2
              2 79 220 278 ms 66.6
              3 81 220 284 ms 66.7
              4 80 220 284 ms 66.7
              Ray WangR 1 条回复 最后回复
              0
              • kos orK 在线
                kos orK 在线
                kos or
                编写于 最后由 kos or 编辑
                #11

                謝謝樓主分享, 我的配置跟你很像 目前正在備貨,
                請問這PCIe x 16 Riser adapter 長度是多少cm ?
                我在考慮要買 15, 20, or 25 cm 哪種規格

                54e2d2d0-986b-4e20-b781-fd5a6fe2ac99-image.jpeg

                Ray WangR 1 条回复 最后回复
                0
                • kos orK kos or

                  謝謝樓主分享, 我的配置跟你很像 目前正在備貨,
                  請問這PCIe x 16 Riser adapter 長度是多少cm ?
                  我在考慮要買 15, 20, or 25 cm 哪種規格

                  54e2d2d0-986b-4e20-b781-fd5a6fe2ac99-image.jpeg

                  Ray WangR 在线
                  Ray WangR 在线
                  Ray Wang
                  编写于 最后由 编辑
                  #12

                  @kos-or 我买的25cm的,一言难尽,放到最边上有点短会有点扯,放到中间又很长有点折,但好歹没什么大问题,建议你架子到手了以后,把gpu排好了,自己测量一下再买线。

                  kos orK 1 条回复 最后回复
                  0
                  • A applejuice

                    @Ray-Wang 说:

                    @applejuice 话说你跑大模型大概能到多少TPS呢,我看你之前的作业,只有烤机,没有写跑分

                    VLLM, 上面那张限制230w,下面那张限制240w

                    vLLM 启动参数 (docker-compose.yml)

                    --model /models/heretic-gptq-int4
                    --served-model-name qwen3.6-27b-heretic
                    --quantization gptq_marlin
                    --dtype float16
                    --tensor-parallel-size 2
                    --max-model-len 262144
                    --gpu-memory-utilization 0.9        # via ~/vllm/.env: GPU_MEM_UTIL=0.9  - 之前设置0.932 但是用下来显存到了23.4x, 所以我把它降下来
                    --max-num-seqs 2
                    --max-num-batched-tokens 8192
                    --kv-cache-dtype fp8_e5m2
                    --trust-remote-code
                    --reasoning-parser qwen3
                    --enable-auto-tool-choice
                    --tool-call-parser qwen3_coder
                    --enable-prefix-caching
                    --enable-chunked-prefill
                    --disable-custom-all-reduce         
                    --host 0.0.0.0
                    --port 8000
                    

                    测试结果 NVLINK

                    测试项目 数值
                    首响应时间 TTFT(短 prompt,冷启动) 163 ms
                    总响应时间(10 tokens) 293 ms
                    Prefill 1K 1,991 tok/s
                    Prefill 4K 2,036 tok/s
                    Prefill 16K 1,985 tok/s
                    Decode(单流) 69.3 tok/s
                    50K prompt 冷启动 TTFT 25.06 秒
                    50K prompt 缓存命中 TTFT 0.69 秒
                    缓存加速比 36.5×

                    没有NVLINK

                    Prefill 4K 重复测量 (5 次)

                    run prompt_tokens ttft tok/s
                    1 3 836 2 776 ms 1 382
                    2 3 836 2 735 ms 1 403
                    3 3 834 2 665 ms 1 439
                    4 3 833 2 770 ms 1 384
                    5 3 838 2 772 ms 1 384

                    mean=1 398, median=1 384, min=1 382, max=1 439. σ ≈ 22 tok/s (1.6% 变化) — 极稳,退化是稳态而非瞬态。

                    Decode 单流 重复测量 (4 次)

                    run prompt_tokens completion_tokens ttft decode tok/s
                    1 76 220 256 ms 66.2
                    2 79 220 278 ms 66.6
                    3 81 220 284 ms 66.7
                    4 80 220 284 ms 66.7
                    Ray WangR 在线
                    Ray WangR 在线
                    Ray Wang
                    编写于 最后由 编辑
                    #13

                    @applejuice 好像跟我这code成绩差不多,但你功耗低很多,明天我跑一下试试

                    A 1 条回复 最后回复
                    0
                    • Ray WangR Ray Wang

                      @kos-or 我买的25cm的,一言难尽,放到最边上有点短会有点扯,放到中间又很长有点折,但好歹没什么大问题,建议你架子到手了以后,把gpu排好了,自己测量一下再买线。

                      kos orK 在线
                      kos orK 在线
                      kos or
                      编写于 最后由 编辑
                      #14

                      @Ray-Wang 感謝建議 !我等礦機架到了再實際量測 購買Riser
                      我有其他礦機架小型的 大約6~8 GPU-sized 你的屬於挑高型 我剛實際量測加上照片目測 你的顯卡支撐條大概挑高了約10cm , 這樣的設計對於你主板CPU上的大型Heatsinnk 是有利的

                      1 条回复 最后回复
                      0
                      • kos orK 在线
                        kos orK 在线
                        kos or
                        编写于 最后由 编辑
                        #15

                        我們用這種Open Rack 熱氣肯定有的 (夏天快到了更受不了) ,
                        除了Power Limit之外 , 就是用電風扇和窗型排風扇 產生空氣流通

                        5845f593-b077-4c3c-9702-6226e80dd53b-image.jpeg

                        1 条回复 最后回复
                        0
                        • kos orK 在线
                          kos orK 在线
                          kos or
                          编写于 最后由 编辑
                          #16

                          我想幫Open Rack 設計一個機殼 製造空氣流通airflow 也能保護設備 避免灰塵累積

                          Ray WangR 1 条回复 最后回复
                          0
                          • AGIA 离线
                            AGIA 离线
                            AGI
                            编写于 最后由 AGI 编辑
                            #17

                            折腾硬件很是麻烦。两年前买的Dell T5810,没有买华南散件,因为dell的质量的确很牛,二是因为放到家里当homelab的,不需要显卡。没想到两年后,显卡和电源成了制约因素。所以前几天买了蓝宝石7900xtx和1000w电源套装,电源专供显卡供电,还需要买一个同步启动器,拼多多10块钱,只能这样凑合着,想入第二块7900xtx,还放不下了,不想外置。
                            机箱盖子无法正常盖好,也挺好,llm满载的时候,把盖子挪走,温度降低10度...

                            d0c6a0e8b727829c66648fdf292a9fe0.jpeg
                            68bcbaad0c6426dd144aa99c4687a95a.jpeg

                            Ray WangR 1 条回复 最后回复
                            2
                            • Ray WangR Ray Wang

                              @applejuice 好像跟我这code成绩差不多,但你功耗低很多,明天我跑一下试试

                              A 离线
                              A 离线
                              applejuice
                              编写于 最后由 编辑
                              #18

                              @Ray-Wang 说:

                              @applejuice 好像跟我这code成绩差不多,但你功耗低很多,明天我跑一下试试

                              测了3090 300w 跟250w 只差5-10%
                              230w 跟 250w 好像也只有5%的样子

                              所以限制230w-250w = 差不多就有90% 的效率

                              1 条回复 最后回复
                              0
                              • P 在线
                                P 在线
                                passss
                                编写于 最后由 编辑
                                #19

                                楼主双3090用多大的电源?我1200W跑27b-mtp不限制到300W以下就要重启

                                Leon YL Ray WangR 2 条回复 最后回复
                                0
                                • K koala 被引用 于这个主题
                                • A 离线
                                  A 离线
                                  applejuice
                                  编写于 最后由 编辑
                                  #20

                                  楼主,你的kmv 有视频输出吗? 我的一直显示no signal,我没什么用所以没理他 但是始终放在心里

                                  Ray WangR 1 条回复 最后回复
                                  0
                                  • P passss

                                    楼主双3090用多大的电源?我1200W跑27b-mtp不限制到300W以下就要重启

                                    Leon YL 离线
                                    Leon YL 离线
                                    Leon Y
                                    编写于 最后由 编辑
                                    #21

                                    @passss 说:

                                    楼主双3090用多大的电源?我1200W跑27b-mtp不限制到300W以下就要重启

                                    我用的Corsair RM1000X, 同时满载300W稳稳的,双3090卡换了新的硅脂和散热贴,温度压在75度左右,就是风扇噪音有点吓人

                                    A 1 条回复 最后回复
                                    0
                                    • P passss

                                      楼主双3090用多大的电源?我1200W跑27b-mtp不限制到300W以下就要重启

                                      Ray WangR 在线
                                      Ray WangR 在线
                                      Ray Wang
                                      编写于 最后由 编辑
                                      #22

                                      @passss 嗯,现实就是,哪怕限制到300w,瞬时峰值还是有可能冲到400w以上。

                                      我之前挖矿7、8台GPU一起跑,而且美国这边是110v家用电,上大瓦数不好上,所以我用的都是多电源模式。现在这个配置是两个850w电源,中间用一个add2psu(下图)同步启动器。2号电源的24针插到这上面,然后接一根molex到1号电源上,就可以做到两台电源同时启动了。

                                      两个电源分别带一个GPU,完全够用。这套东西是经过广大矿工考验的😅 ,安全可靠。你有条件的话可以也像我这样再加个电源,我觉得比折腾一个大电源省事一点。

                                      5be28026-d948-439d-8940-d7ec6cf45b01-image.jpeg

                                      1 条回复 最后回复
                                      0
                                      • A applejuice

                                        楼主,你的kmv 有视频输出吗? 我的一直显示no signal,我没什么用所以没理他 但是始终放在心里

                                        Ray WangR 在线
                                        Ray WangR 在线
                                        Ray Wang
                                        编写于 最后由 编辑
                                        #23

                                        @applejuice 没有,感觉用不到,我也没有VGA线哈哈。过几天我把IPMI装上就完全满足我需求了。

                                        1 条回复 最后回复
                                        0
                                        • AGIA AGI

                                          折腾硬件很是麻烦。两年前买的Dell T5810,没有买华南散件,因为dell的质量的确很牛,二是因为放到家里当homelab的,不需要显卡。没想到两年后,显卡和电源成了制约因素。所以前几天买了蓝宝石7900xtx和1000w电源套装,电源专供显卡供电,还需要买一个同步启动器,拼多多10块钱,只能这样凑合着,想入第二块7900xtx,还放不下了,不想外置。
                                          机箱盖子无法正常盖好,也挺好,llm满载的时候,把盖子挪走,温度降低10度...

                                          d0c6a0e8b727829c66648fdf292a9fe0.jpeg
                                          68bcbaad0c6426dd144aa99c4687a95a.jpeg

                                          Ray WangR 在线
                                          Ray WangR 在线
                                          Ray Wang
                                          编写于 最后由 编辑
                                          #24

                                          @AGI 哎,我这台机器本来也是准备进柜的。但是几年前买这个机柜时候啥也不懂,买的是那种很浅的,只能放点Switch这些小设备...

                                          1 条回复 最后回复
                                          0

                                          你好!看起来您对这段对话很感兴趣,但您还没有一个账号。

                                          厌倦了每次访问都刷到同样的帖子?您注册账号后,您每次返回时都能精准定位到您上次浏览的位置,并可选择接收新回复通知(通过邮件或推送通知)。您还能收藏书签、为帖子顶,向社区成员表达您的欣赏。

                                          有了你的建议,这篇帖子会更精彩哦 💗

                                          注册 登录
                                          回复
                                          • 在新帖中回复
                                          登录后回复
                                          • 从旧到新
                                          • 从新到旧
                                          • 最多赞同


                                          • 登录

                                          • 没有帐号? 注册

                                          • 登录或注册以进行搜索。
                                          • 第一个帖子
                                            最后一个帖子
                                          0
                                          • 版块
                                          • 最新
                                          • 标签
                                          • 热门
                                          • 用户
                                          • 群组