跳转至内容
  • 版块
  • 最新
  • 标签
  • 热门
  • 用户
  • 群组
皮肤
  • 浅色
  • Brite
  • Cerulean
  • Cosmo
  • Flatly
  • Journal
  • Litera
  • Lumen
  • Lux
  • Materia
  • Minty
  • Morph
  • Pulse
  • Sandstone
  • Simplex
  • Sketchy
  • Spacelab
  • United
  • Yeti
  • Zephyr
  • 深色
  • Cyborg
  • Darkly
  • Quartz
  • Slate
  • Solar
  • Superhero
  • Vapor

  • 默认(不使用皮肤)
  • 不使用皮肤
折叠
品牌标识

抡锤者

  1. 主页
  2. AI硬件
  3. 来自RTX PRO 5000的碎碎念

来自RTX PRO 5000的碎碎念

已定时 置顶直到 2026/6/12 03:13 已锁定 已移动 AI硬件
pro5000
21 帖子 9 发布者 315 浏览
  • 从旧到新
  • 从新到旧
  • 最多赞同
回复
  • 在新帖中回复
登录后回复
此主题已被删除。只有拥有主题管理权限的用户可以查看。
  • Tony WangT Tony Wang

    @kop-wang

    27B Q6, 非MTP:prefill在1400t/s,decode速度在32t/s左右

    这个数据比我想象的要低一点儿, 我以为能跑到50.

    kop wangK 离线
    kop wangK 离线
    kop wang
    编写于 最后由 编辑
    #5

    @Tony-Wang llama-bench是可以的,但是实战其实跑不出来这个数据。只能说llama-bench是性能上限。

    虚心交流,一起进步

    1 条回复 最后回复
    0
    • 5 离线
      5 离线
      566656661
      编写于 最后由 编辑
      #6

      感謝測試

      無意冒犯但這性能估計也有很大一部分沒壓榨乾淨

      要不要嘗試一下vLLM來壓榨一下

      kop wangK 1 条回复 最后回复
      0
      • 5 566656661

        感謝測試

        無意冒犯但這性能估計也有很大一部分沒壓榨乾淨

        要不要嘗試一下vLLM來壓榨一下

        kop wangK 离线
        kop wangK 离线
        kop wang
        编写于 最后由 编辑
        #7

        @566656661 当然欢迎交流,以下是我的FP8参数,您可以看看是否有什么值得优化的

        ~/.local/venvs/vllm/bin/vllm serve ~/.local/models/Qwen3.6-27B-FP8 \
          --port 8000 \
          --max-model-len 262144 \
          --gpu-memory-utilization 0.95 \
          --kv-cache-dtype int8_per_token_head \
          --reasoning-parser qwen3 \
          --dtype auto \
          --enable-auto-tool-choice \
          --tool-call-parser qwen3_xml \
          --served-model-name Qwen/Qwen3.6-27B
        

        虚心交流,一起进步

        5 1 条回复 最后回复
        0
        • kop wangK kop wang

          @566656661 当然欢迎交流,以下是我的FP8参数,您可以看看是否有什么值得优化的

          ~/.local/venvs/vllm/bin/vllm serve ~/.local/models/Qwen3.6-27B-FP8 \
            --port 8000 \
            --max-model-len 262144 \
            --gpu-memory-utilization 0.95 \
            --kv-cache-dtype int8_per_token_head \
            --reasoning-parser qwen3 \
            --dtype auto \
            --enable-auto-tool-choice \
            --tool-call-parser qwen3_xml \
            --served-model-name Qwen/Qwen3.6-27B
          
          5 离线
          5 离线
          566656661
          编写于 最后由 编辑
          #8

          @kop-wang

          不考慮坊間的nvfp4嘛? 這是blackwell架構的精髓, 模型權重至少會少個10%以上, 雖說特定任務benchmark下精度較低, 如果害怕精度損失的話可以繼續用其他坊間的fp8模型 (Qwen官方沒有坊間玩得花, 坊間其他不多不少都會有些性能或vram優化)

          然後不是太懂要用int 8 token head, 這東東給30系用比較合適, 畢竟Ampere沒有fp8, 論精度跟性能fp8比較好吧

          還有慣用的mtp跟用cu130 nightly (v 0.20, blackwell優化), cu129 latest (v 0.22)這些比較常規的

          kop wangK 1 条回复 最后回复
          1
          • 5 566656661

            @kop-wang

            不考慮坊間的nvfp4嘛? 這是blackwell架構的精髓, 模型權重至少會少個10%以上, 雖說特定任務benchmark下精度較低, 如果害怕精度損失的話可以繼續用其他坊間的fp8模型 (Qwen官方沒有坊間玩得花, 坊間其他不多不少都會有些性能或vram優化)

            然後不是太懂要用int 8 token head, 這東東給30系用比較合適, 畢竟Ampere沒有fp8, 論精度跟性能fp8比較好吧

            還有慣用的mtp跟用cu130 nightly (v 0.20, blackwell優化), cu129 latest (v 0.22)這些比較常規的

            kop wangK 离线
            kop wangK 离线
            kop wang
            编写于 最后由 编辑
            #9

            @566656661 感谢提点,我去尝试一下

            虚心交流,一起进步

            1 条回复 最后回复
            1
            • A 在线
              A 在线
              applejuice
              编写于 最后由 编辑
              #10

              prefill在1400t/s,decode速度在32t/s左右。

              这个有点慢啊?因为Q6 所以比较慢?
              3090这种宽带,Q4 都1600t/s Prefill, 60t/s decode?
              5000 pro 不应该至少2000t/s prefill , 80t/s decode?

              1 条回复 最后回复
              0
              • terryT terry 固定了该主题
              • williamlouisW 离线
                williamlouisW 离线
                williamlouis
                编写于 最后由 编辑
                #11

                不做视频生产力。压榨不压榨极限值没什么必要。够用就行了。我都是开功耗墙跑。这样噪音小了好多。

                个人主页:xlkj.org Telegram https://t.me/xlkjorg

                5 1 条回复 最后回复
                0
                • williamlouisW williamlouis

                  不做视频生产力。压榨不压榨极限值没什么必要。够用就行了。我都是开功耗墙跑。这样噪音小了好多。

                  5 离线
                  5 离线
                  566656661
                  编写于 最后由 566656661 编辑
                  #12

                  @williamlouis

                  感覺這不是壓不壓榨極限性能的問題, 而是這個性能好像連甜品位都還沒到的樣子

                  williamlouisW 1 条回复 最后回复
                  0
                  • 5 566656661

                    @williamlouis

                    感覺這不是壓不壓榨極限性能的問題, 而是這個性能好像連甜品位都還沒到的樣子

                    williamlouisW 离线
                    williamlouisW 离线
                    williamlouis
                    编写于 最后由 编辑
                    #13

                    @566656661 看感觉尺度了。我的够用不是你的够用。得你感觉够用才是真够用。不是吗?

                    个人主页:xlkj.org Telegram https://t.me/xlkjorg

                    5 1 条回复 最后回复
                    0
                    • williamlouisW williamlouis

                      @566656661 看感觉尺度了。我的够用不是你的够用。得你感觉够用才是真够用。不是吗?

                      5 离线
                      5 离线
                      566656661
                      编写于 最后由 编辑
                      #14

                      @williamlouis

                      也是

                      畢竟不是卡的所有人,只是個人覺得看到有性能還沒有釋放有點可惜而已

                      感覺有點像在德國的高速公路只跑標準120 (很快沒錯), 但是知道引擎還能再快一點, 極限在160到170, 想跑到140的樣子 😂

                      1 条回复 最后回复
                      1
                      • williamlouisW 离线
                        williamlouisW 离线
                        williamlouis
                        编写于 最后由 编辑
                        #15

                        我非常懒。所以很少折腾自己不需要的东西。

                        个人主页:xlkj.org Telegram https://t.me/xlkjorg

                        1 条回复 最后回复
                        0
                        • sirwangS 在线
                          sirwangS 在线
                          sirwang
                          超级版主
                          编写于 最后由 编辑
                          #16

                          不用多想,自己咬牙能买的起的最好的,就是好的。

                          1 条回复 最后回复
                          0
                          • S 离线
                            S 离线
                            stakira
                            编写于 最后由 编辑
                            #17

                            想说现在很多机箱每个槽中间没有那一条,整体就是一个洞

                            1 条回复 最后回复
                            0
                            • M 在线
                              M 在线
                              mark
                              编写于 最后由 编辑
                              #18

                              恭喜入坑 rtx pro5000. 3.6w 真的不便宜啊

                              1 条回复 最后回复
                              0
                              • M 在线
                                M 在线
                                mark
                                编写于 最后由 编辑
                                #19

                                拍一个显卡 照片 看看, 让我们没钱买的, 也看看pro 5000的真容.

                                5 1 条回复 最后回复
                                0
                                • M mark

                                  拍一个显卡 照片 看看, 让我们没钱买的, 也看看pro 5000的真容.

                                  5 离线
                                  5 离线
                                  566656661
                                  编写于 最后由 编辑
                                  #20

                                  @mark

                                  除了雕刻的文字變了, 中間的散熱塊變波紋形狀, 其他應該外表跟4500沒什麼分別吧?

                                  1 条回复 最后回复
                                  0
                                  • kop wangK kop wang 被引用 于这个主题
                                  • kop wangK kop wang

                                    @b9704037 Q8或者FP8都测试了,显存是占满了,但是效率下降了。不开MTP,decode只有15t/s左右。MTP的话,因为显存占用更大,上下文挤占太多。FP8不开MTP只能开200k上下文。

                                    B 离线
                                    B 离线
                                    b9704037
                                    编写于 最后由 编辑
                                    #21

                                    @kop-wang 稍微可惜一些, nvfp4應該行, 3.6萬現在回頭看好便宜阿, 5090也都快趕上這個價位了

                                    1 条回复 最后回复
                                    0

                                    你好!看起来您对这段对话很感兴趣,但您还没有一个账号。

                                    厌倦了每次访问都刷到同样的帖子?您注册账号后,您每次返回时都能精准定位到您上次浏览的位置,并可选择接收新回复通知(通过邮件或推送通知)。您还能收藏书签、为帖子顶,向社区成员表达您的欣赏。

                                    有了你的建议,这篇帖子会更精彩哦 💗

                                    注册 登录
                                    回复
                                    • 在新帖中回复
                                    登录后回复
                                    • 从旧到新
                                    • 从新到旧
                                    • 最多赞同


                                    • 登录

                                    • 没有帐号? 注册

                                    • 登录或注册以进行搜索。
                                    • 第一个帖子
                                      最后一个帖子
                                    0
                                    • 版块
                                    • 最新
                                    • 标签
                                    • 热门
                                    • 用户
                                    • 群组