跳转至内容
  • 版块
  • 最新
  • 标签
  • 热门
  • 用户
  • 群组
皮肤
  • 浅色
  • Brite
  • Cerulean
  • Cosmo
  • Flatly
  • Journal
  • Litera
  • Lumen
  • Lux
  • Materia
  • Minty
  • Morph
  • Pulse
  • Sandstone
  • Simplex
  • Sketchy
  • Spacelab
  • United
  • Yeti
  • Zephyr
  • 深色
  • Cyborg
  • Darkly
  • Quartz
  • Slate
  • Solar
  • Superhero
  • Vapor

  • 默认(不使用皮肤)
  • 不使用皮肤
折叠
品牌标识

抡锤者

  1. 主页
  2. AI硬件
  3. 来自RTX PRO 5000的碎碎念

来自RTX PRO 5000的碎碎念

已定时 置顶直到 2026/6/12 03:13 已锁定 已移动 AI硬件
pro5000
21 帖子 9 发布者 310 浏览
  • 从旧到新
  • 从新到旧
  • 最多赞同
回复
  • 在新帖中回复
登录后回复
此主题已被删除。只有拥有主题管理权限的用户可以查看。
  • kop wangK 离线
    kop wangK 离线
    kop wang
    编写于 最后由 kop wang 编辑
    #1

    最近入手了一张RTX PRO 5000,上机试用了几天。于是上来发一个零散的使用记录与心得。
    个人拙见,如有错误欢迎指正。


    1、购买理由

    在5月涨价之前,相比较7.3万的rtx pro 6000 96GB,3.6万的rtx pro 5000 48GB完全没有任何性价比。
    但随着这一轮涨价,pro6000的价格飙升到了10万以上,这时候只溢价2000的pro 5000 48GB就逐渐香了起来。

    在综合考虑能耗、噪音、稳定性等维度之后,最终摒弃了4090 48GB魔改版本,选择了国行的RTX PRO 5000。


    2、硬件安装

    特殊的涡轮卡
    RTX PRO 5000是一个1.5槽散热+0.5槽输出接口的非标准显卡。接在普通的塔式机箱时,散热出口会被机箱pcie格栅挡掉一部分。同时,因为dp口靠上,所以dp口也是将将露出pcie挡板。于是,航空剪伺候,我去掉了一条pcie格栅。

    0ff5ace3-e47e-4072-85bf-c96b38913da0-image.jpeg

    DP接口也略有遮挡,但综合考虑之后我还是决定保留上面的pcie格栅,否则因为去掉太多,显卡固定螺丝位置的刚性会有所下降。

    16pin注意事项
    随卡附带一条双8pin转16pin转接线。需要注意的是,如果你之前的显卡用的是1分2的8pin接口,对于300W功率的RTX PRO 5000,峰值使用电流就接近单8pin的功率极限了。所以建议还是老老实实使用双8pin转16pin电源线。如果你的电源原生支持16pin的话,则更好。

    btw:不同品牌电源的8pin、16pin线不要混用。不同品牌,电源侧的针脚定义是有概率不一致的。
    值得吐槽的是,即便是专业卡,16pin还是老样子,插入手感模糊,紧。没有锁定感,所以一定插到底。
    

    3、实际测试

    综合芯片的算力和显存大小,qwen3.6-27B运行Q6应该是最佳的甜点区间。使用Claude Code进行实际相同的编程任务测速。

    启动参数:

    -m ~/.local/models/Qwen3.6-27B-Q6_K.gguf \
    --mmproj ~/.local/models/mmproj-BF16.gguf \
    -ngl 99 \
    --flash-attn on \
    --cache-type-k q8_0 \
    --cache-type-v q8_0 \
    -c 262144 \
    --port 8080 \
    --host 0.0.0.0 \
    --temp 0.6 \
    --top-p 0.95 \
    --repeat-penalty 1.05 \
    --spec-type draft-mtp \
    --spec-draft-n-max 2
    

    非MTP:prefill在1400t/s,decode速度在32t/s左右。
    6a54ad1f-62fd-4f1d-981b-a995cda15119-image.jpeg
    MTP x2:prefill在1400t/s,decode在51t/s左右。
    2d4621cf-5485-444a-894f-3d4dba1c9504-image.jpeg

    注意:实际使用过程中,随着上下文的膨胀,速度会有所下降。以及并不是所有请求MTP都能够命中生效,总体命中概率大概60%。


    4、使用体验

    噪音:典型的涡轮卡目标温度调教,核心温度会锁死85度。室温在28度左右的情况下,满载压在85度的转速大概是60%。噪音是完全被CPU风扇+机箱风扇掩盖的。
    在跑qwen3.6-27B-nvfp4时,曾经崩溃过驱动导致死机。这时风扇会自动锁死100%,动静还是很大的。和戴森吸尘器有一拼。

    稳定性:同上,只在运行nvfp4时驱动崩溃自动重启过,目前还没排查出原因。已经用DDU全清了显卡驱动,然后重新安装了596.59,再观察观察。


    5、个人思考

    如果不考虑个人预算,只从单纯的AI硬件性价比来讲,目前PRO 5000和PRO 6000的价格结构才是合理的(6000大概是5000的2.5~3倍)。反过来思考,上个月7.3万的PRO 6000工作站版是真的非常有性价比(几乎可以理解为显存叠加,芯片性能白送)。

    音视频是我之前不太擅长的领域,目前也在逐渐尝试,发现大场景,高动态的视频场景,48GB的显存+64GB内存还是远远不够。
    但是世界上没有如果。所以只能是以优化、折腾管线、工作流来换价格了。

    虚心交流,一起进步

    B Tony WangT 2 条回复 最后回复
    5
    • kop wangK kop wang

      最近入手了一张RTX PRO 5000,上机试用了几天。于是上来发一个零散的使用记录与心得。
      个人拙见,如有错误欢迎指正。


      1、购买理由

      在5月涨价之前,相比较7.3万的rtx pro 6000 96GB,3.6万的rtx pro 5000 48GB完全没有任何性价比。
      但随着这一轮涨价,pro6000的价格飙升到了10万以上,这时候只溢价2000的pro 5000 48GB就逐渐香了起来。

      在综合考虑能耗、噪音、稳定性等维度之后,最终摒弃了4090 48GB魔改版本,选择了国行的RTX PRO 5000。


      2、硬件安装

      特殊的涡轮卡
      RTX PRO 5000是一个1.5槽散热+0.5槽输出接口的非标准显卡。接在普通的塔式机箱时,散热出口会被机箱pcie格栅挡掉一部分。同时,因为dp口靠上,所以dp口也是将将露出pcie挡板。于是,航空剪伺候,我去掉了一条pcie格栅。

      0ff5ace3-e47e-4072-85bf-c96b38913da0-image.jpeg

      DP接口也略有遮挡,但综合考虑之后我还是决定保留上面的pcie格栅,否则因为去掉太多,显卡固定螺丝位置的刚性会有所下降。

      16pin注意事项
      随卡附带一条双8pin转16pin转接线。需要注意的是,如果你之前的显卡用的是1分2的8pin接口,对于300W功率的RTX PRO 5000,峰值使用电流就接近单8pin的功率极限了。所以建议还是老老实实使用双8pin转16pin电源线。如果你的电源原生支持16pin的话,则更好。

      btw:不同品牌电源的8pin、16pin线不要混用。不同品牌,电源侧的针脚定义是有概率不一致的。
      值得吐槽的是,即便是专业卡,16pin还是老样子,插入手感模糊,紧。没有锁定感,所以一定插到底。
      

      3、实际测试

      综合芯片的算力和显存大小,qwen3.6-27B运行Q6应该是最佳的甜点区间。使用Claude Code进行实际相同的编程任务测速。

      启动参数:

      -m ~/.local/models/Qwen3.6-27B-Q6_K.gguf \
      --mmproj ~/.local/models/mmproj-BF16.gguf \
      -ngl 99 \
      --flash-attn on \
      --cache-type-k q8_0 \
      --cache-type-v q8_0 \
      -c 262144 \
      --port 8080 \
      --host 0.0.0.0 \
      --temp 0.6 \
      --top-p 0.95 \
      --repeat-penalty 1.05 \
      --spec-type draft-mtp \
      --spec-draft-n-max 2
      

      非MTP:prefill在1400t/s,decode速度在32t/s左右。
      6a54ad1f-62fd-4f1d-981b-a995cda15119-image.jpeg
      MTP x2:prefill在1400t/s,decode在51t/s左右。
      2d4621cf-5485-444a-894f-3d4dba1c9504-image.jpeg

      注意:实际使用过程中,随着上下文的膨胀,速度会有所下降。以及并不是所有请求MTP都能够命中生效,总体命中概率大概60%。


      4、使用体验

      噪音:典型的涡轮卡目标温度调教,核心温度会锁死85度。室温在28度左右的情况下,满载压在85度的转速大概是60%。噪音是完全被CPU风扇+机箱风扇掩盖的。
      在跑qwen3.6-27B-nvfp4时,曾经崩溃过驱动导致死机。这时风扇会自动锁死100%,动静还是很大的。和戴森吸尘器有一拼。

      稳定性:同上,只在运行nvfp4时驱动崩溃自动重启过,目前还没排查出原因。已经用DDU全清了显卡驱动,然后重新安装了596.59,再观察观察。


      5、个人思考

      如果不考虑个人预算,只从单纯的AI硬件性价比来讲,目前PRO 5000和PRO 6000的价格结构才是合理的(6000大概是5000的2.5~3倍)。反过来思考,上个月7.3万的PRO 6000工作站版是真的非常有性价比(几乎可以理解为显存叠加,芯片性能白送)。

      音视频是我之前不太擅长的领域,目前也在逐渐尝试,发现大场景,高动态的视频场景,48GB的显存+64GB内存还是远远不够。
      但是世界上没有如果。所以只能是以优化、折腾管线、工作流来换价格了。

      B 离线
      B 离线
      b9704037
      编写于 最后由 编辑
      #2

      @kop-wang 感覺可以上Q8試試看 應該可以把顯存吃乾抹淨😳 😳

      kop wangK 1 条回复 最后回复
      0
      • B b9704037

        @kop-wang 感覺可以上Q8試試看 應該可以把顯存吃乾抹淨😳 😳

        kop wangK 离线
        kop wangK 离线
        kop wang
        编写于 最后由 编辑
        #3

        @b9704037 Q8或者FP8都测试了,显存是占满了,但是效率下降了。不开MTP,decode只有15t/s左右。MTP的话,因为显存占用更大,上下文挤占太多。FP8不开MTP只能开200k上下文。

        虚心交流,一起进步

        B 1 条回复 最后回复
        0
        • kop wangK kop wang

          最近入手了一张RTX PRO 5000,上机试用了几天。于是上来发一个零散的使用记录与心得。
          个人拙见,如有错误欢迎指正。


          1、购买理由

          在5月涨价之前,相比较7.3万的rtx pro 6000 96GB,3.6万的rtx pro 5000 48GB完全没有任何性价比。
          但随着这一轮涨价,pro6000的价格飙升到了10万以上,这时候只溢价2000的pro 5000 48GB就逐渐香了起来。

          在综合考虑能耗、噪音、稳定性等维度之后,最终摒弃了4090 48GB魔改版本,选择了国行的RTX PRO 5000。


          2、硬件安装

          特殊的涡轮卡
          RTX PRO 5000是一个1.5槽散热+0.5槽输出接口的非标准显卡。接在普通的塔式机箱时,散热出口会被机箱pcie格栅挡掉一部分。同时,因为dp口靠上,所以dp口也是将将露出pcie挡板。于是,航空剪伺候,我去掉了一条pcie格栅。

          0ff5ace3-e47e-4072-85bf-c96b38913da0-image.jpeg

          DP接口也略有遮挡,但综合考虑之后我还是决定保留上面的pcie格栅,否则因为去掉太多,显卡固定螺丝位置的刚性会有所下降。

          16pin注意事项
          随卡附带一条双8pin转16pin转接线。需要注意的是,如果你之前的显卡用的是1分2的8pin接口,对于300W功率的RTX PRO 5000,峰值使用电流就接近单8pin的功率极限了。所以建议还是老老实实使用双8pin转16pin电源线。如果你的电源原生支持16pin的话,则更好。

          btw:不同品牌电源的8pin、16pin线不要混用。不同品牌,电源侧的针脚定义是有概率不一致的。
          值得吐槽的是,即便是专业卡,16pin还是老样子,插入手感模糊,紧。没有锁定感,所以一定插到底。
          

          3、实际测试

          综合芯片的算力和显存大小,qwen3.6-27B运行Q6应该是最佳的甜点区间。使用Claude Code进行实际相同的编程任务测速。

          启动参数:

          -m ~/.local/models/Qwen3.6-27B-Q6_K.gguf \
          --mmproj ~/.local/models/mmproj-BF16.gguf \
          -ngl 99 \
          --flash-attn on \
          --cache-type-k q8_0 \
          --cache-type-v q8_0 \
          -c 262144 \
          --port 8080 \
          --host 0.0.0.0 \
          --temp 0.6 \
          --top-p 0.95 \
          --repeat-penalty 1.05 \
          --spec-type draft-mtp \
          --spec-draft-n-max 2
          

          非MTP:prefill在1400t/s,decode速度在32t/s左右。
          6a54ad1f-62fd-4f1d-981b-a995cda15119-image.jpeg
          MTP x2:prefill在1400t/s,decode在51t/s左右。
          2d4621cf-5485-444a-894f-3d4dba1c9504-image.jpeg

          注意:实际使用过程中,随着上下文的膨胀,速度会有所下降。以及并不是所有请求MTP都能够命中生效,总体命中概率大概60%。


          4、使用体验

          噪音:典型的涡轮卡目标温度调教,核心温度会锁死85度。室温在28度左右的情况下,满载压在85度的转速大概是60%。噪音是完全被CPU风扇+机箱风扇掩盖的。
          在跑qwen3.6-27B-nvfp4时,曾经崩溃过驱动导致死机。这时风扇会自动锁死100%,动静还是很大的。和戴森吸尘器有一拼。

          稳定性:同上,只在运行nvfp4时驱动崩溃自动重启过,目前还没排查出原因。已经用DDU全清了显卡驱动,然后重新安装了596.59,再观察观察。


          5、个人思考

          如果不考虑个人预算,只从单纯的AI硬件性价比来讲,目前PRO 5000和PRO 6000的价格结构才是合理的(6000大概是5000的2.5~3倍)。反过来思考,上个月7.3万的PRO 6000工作站版是真的非常有性价比(几乎可以理解为显存叠加,芯片性能白送)。

          音视频是我之前不太擅长的领域,目前也在逐渐尝试,发现大场景,高动态的视频场景,48GB的显存+64GB内存还是远远不够。
          但是世界上没有如果。所以只能是以优化、折腾管线、工作流来换价格了。

          Tony WangT 离线
          Tony WangT 离线
          Tony Wang
          编写于 最后由 编辑
          #4

          @kop-wang

          27B Q6, 非MTP:prefill在1400t/s,decode速度在32t/s左右

          这个数据比我想象的要低一点儿, 我以为能跑到50.

          kop wangK 1 条回复 最后回复
          0
          • Tony WangT Tony Wang

            @kop-wang

            27B Q6, 非MTP:prefill在1400t/s,decode速度在32t/s左右

            这个数据比我想象的要低一点儿, 我以为能跑到50.

            kop wangK 离线
            kop wangK 离线
            kop wang
            编写于 最后由 编辑
            #5

            @Tony-Wang llama-bench是可以的,但是实战其实跑不出来这个数据。只能说llama-bench是性能上限。

            虚心交流,一起进步

            1 条回复 最后回复
            0
            • 5 在线
              5 在线
              566656661
              编写于 最后由 编辑
              #6

              感謝測試

              無意冒犯但這性能估計也有很大一部分沒壓榨乾淨

              要不要嘗試一下vLLM來壓榨一下

              kop wangK 1 条回复 最后回复
              0
              • 5 566656661

                感謝測試

                無意冒犯但這性能估計也有很大一部分沒壓榨乾淨

                要不要嘗試一下vLLM來壓榨一下

                kop wangK 离线
                kop wangK 离线
                kop wang
                编写于 最后由 编辑
                #7

                @566656661 当然欢迎交流,以下是我的FP8参数,您可以看看是否有什么值得优化的

                ~/.local/venvs/vllm/bin/vllm serve ~/.local/models/Qwen3.6-27B-FP8 \
                  --port 8000 \
                  --max-model-len 262144 \
                  --gpu-memory-utilization 0.95 \
                  --kv-cache-dtype int8_per_token_head \
                  --reasoning-parser qwen3 \
                  --dtype auto \
                  --enable-auto-tool-choice \
                  --tool-call-parser qwen3_xml \
                  --served-model-name Qwen/Qwen3.6-27B
                

                虚心交流,一起进步

                5 1 条回复 最后回复
                0
                • kop wangK kop wang

                  @566656661 当然欢迎交流,以下是我的FP8参数,您可以看看是否有什么值得优化的

                  ~/.local/venvs/vllm/bin/vllm serve ~/.local/models/Qwen3.6-27B-FP8 \
                    --port 8000 \
                    --max-model-len 262144 \
                    --gpu-memory-utilization 0.95 \
                    --kv-cache-dtype int8_per_token_head \
                    --reasoning-parser qwen3 \
                    --dtype auto \
                    --enable-auto-tool-choice \
                    --tool-call-parser qwen3_xml \
                    --served-model-name Qwen/Qwen3.6-27B
                  
                  5 在线
                  5 在线
                  566656661
                  编写于 最后由 编辑
                  #8

                  @kop-wang

                  不考慮坊間的nvfp4嘛? 這是blackwell架構的精髓, 模型權重至少會少個10%以上, 雖說特定任務benchmark下精度較低, 如果害怕精度損失的話可以繼續用其他坊間的fp8模型 (Qwen官方沒有坊間玩得花, 坊間其他不多不少都會有些性能或vram優化)

                  然後不是太懂要用int 8 token head, 這東東給30系用比較合適, 畢竟Ampere沒有fp8, 論精度跟性能fp8比較好吧

                  還有慣用的mtp跟用cu130 nightly (v 0.20, blackwell優化), cu129 latest (v 0.22)這些比較常規的

                  kop wangK 1 条回复 最后回复
                  1
                  • 5 566656661

                    @kop-wang

                    不考慮坊間的nvfp4嘛? 這是blackwell架構的精髓, 模型權重至少會少個10%以上, 雖說特定任務benchmark下精度較低, 如果害怕精度損失的話可以繼續用其他坊間的fp8模型 (Qwen官方沒有坊間玩得花, 坊間其他不多不少都會有些性能或vram優化)

                    然後不是太懂要用int 8 token head, 這東東給30系用比較合適, 畢竟Ampere沒有fp8, 論精度跟性能fp8比較好吧

                    還有慣用的mtp跟用cu130 nightly (v 0.20, blackwell優化), cu129 latest (v 0.22)這些比較常規的

                    kop wangK 离线
                    kop wangK 离线
                    kop wang
                    编写于 最后由 编辑
                    #9

                    @566656661 感谢提点,我去尝试一下

                    虚心交流,一起进步

                    1 条回复 最后回复
                    1
                    • A 离线
                      A 离线
                      applejuice
                      编写于 最后由 编辑
                      #10

                      prefill在1400t/s,decode速度在32t/s左右。

                      这个有点慢啊?因为Q6 所以比较慢?
                      3090这种宽带,Q4 都1600t/s Prefill, 60t/s decode?
                      5000 pro 不应该至少2000t/s prefill , 80t/s decode?

                      1 条回复 最后回复
                      0
                      • terryT terry 固定了该主题
                      • williamlouisW 在线
                        williamlouisW 在线
                        williamlouis
                        编写于 最后由 编辑
                        #11

                        不做视频生产力。压榨不压榨极限值没什么必要。够用就行了。我都是开功耗墙跑。这样噪音小了好多。

                        个人主页:xlkj.org Telegram https://t.me/xlkjorg

                        5 1 条回复 最后回复
                        0
                        • williamlouisW williamlouis

                          不做视频生产力。压榨不压榨极限值没什么必要。够用就行了。我都是开功耗墙跑。这样噪音小了好多。

                          5 在线
                          5 在线
                          566656661
                          编写于 最后由 566656661 编辑
                          #12

                          @williamlouis

                          感覺這不是壓不壓榨極限性能的問題, 而是這個性能好像連甜品位都還沒到的樣子

                          williamlouisW 1 条回复 最后回复
                          0
                          • 5 566656661

                            @williamlouis

                            感覺這不是壓不壓榨極限性能的問題, 而是這個性能好像連甜品位都還沒到的樣子

                            williamlouisW 在线
                            williamlouisW 在线
                            williamlouis
                            编写于 最后由 编辑
                            #13

                            @566656661 看感觉尺度了。我的够用不是你的够用。得你感觉够用才是真够用。不是吗?

                            个人主页:xlkj.org Telegram https://t.me/xlkjorg

                            5 1 条回复 最后回复
                            0
                            • williamlouisW williamlouis

                              @566656661 看感觉尺度了。我的够用不是你的够用。得你感觉够用才是真够用。不是吗?

                              5 在线
                              5 在线
                              566656661
                              编写于 最后由 编辑
                              #14

                              @williamlouis

                              也是

                              畢竟不是卡的所有人,只是個人覺得看到有性能還沒有釋放有點可惜而已

                              感覺有點像在德國的高速公路只跑標準120 (很快沒錯), 但是知道引擎還能再快一點, 極限在160到170, 想跑到140的樣子 😂

                              1 条回复 最后回复
                              1
                              • williamlouisW 在线
                                williamlouisW 在线
                                williamlouis
                                编写于 最后由 编辑
                                #15

                                我非常懒。所以很少折腾自己不需要的东西。

                                个人主页:xlkj.org Telegram https://t.me/xlkjorg

                                1 条回复 最后回复
                                0
                                • sirwangS 离线
                                  sirwangS 离线
                                  sirwang
                                  编写于 最后由 编辑
                                  #16

                                  不用多想,自己咬牙能买的起的最好的,就是好的。

                                  1 条回复 最后回复
                                  0
                                  • S 离线
                                    S 离线
                                    stakira
                                    编写于 最后由 编辑
                                    #17

                                    想说现在很多机箱每个槽中间没有那一条,整体就是一个洞

                                    1 条回复 最后回复
                                    0
                                    • M 在线
                                      M 在线
                                      mark
                                      编写于 最后由 编辑
                                      #18

                                      恭喜入坑 rtx pro5000. 3.6w 真的不便宜啊

                                      1 条回复 最后回复
                                      0
                                      • M 在线
                                        M 在线
                                        mark
                                        编写于 最后由 编辑
                                        #19

                                        拍一个显卡 照片 看看, 让我们没钱买的, 也看看pro 5000的真容.

                                        5 1 条回复 最后回复
                                        0
                                        • M mark

                                          拍一个显卡 照片 看看, 让我们没钱买的, 也看看pro 5000的真容.

                                          5 在线
                                          5 在线
                                          566656661
                                          编写于 最后由 编辑
                                          #20

                                          @mark

                                          除了雕刻的文字變了, 中間的散熱塊變波紋形狀, 其他應該外表跟4500沒什麼分別吧?

                                          1 条回复 最后回复
                                          0
                                          • kop wangK kop wang 被引用 于这个主题

                                          你好!看起来您对这段对话很感兴趣,但您还没有一个账号。

                                          厌倦了每次访问都刷到同样的帖子?您注册账号后,您每次返回时都能精准定位到您上次浏览的位置,并可选择接收新回复通知(通过邮件或推送通知)。您还能收藏书签、为帖子顶,向社区成员表达您的欣赏。

                                          有了你的建议,这篇帖子会更精彩哦 💗

                                          注册 登录
                                          回复
                                          • 在新帖中回复
                                          登录后回复
                                          • 从旧到新
                                          • 从新到旧
                                          • 最多赞同


                                          • 登录

                                          • 没有帐号? 注册

                                          • 登录或注册以进行搜索。
                                          • 第一个帖子
                                            最后一个帖子
                                          0
                                          • 版块
                                          • 最新
                                          • 标签
                                          • 热门
                                          • 用户
                                          • 群组