跳转至内容
  • 版块
  • 最新
  • 标签
  • 热门
  • 用户
  • 群组
皮肤
  • 浅色
  • Brite
  • Cerulean
  • Cosmo
  • Flatly
  • Journal
  • Litera
  • Lumen
  • Lux
  • Materia
  • Minty
  • Morph
  • Pulse
  • Sandstone
  • Simplex
  • Sketchy
  • Spacelab
  • United
  • Yeti
  • Zephyr
  • 深色
  • Cyborg
  • Darkly
  • Quartz
  • Slate
  • Solar
  • Superhero
  • Vapor

  • 默认(不使用皮肤)
  • 不使用皮肤
折叠
品牌标识

抡锤者

  1. 主页
  2. AI硬件
  3. 論 迷你電腦 配合 RTX Pro 4500 的簡單測試, 以及Blackwell架構下的一些嘗試 (僅限Dense模型)

論 迷你電腦 配合 RTX Pro 4500 的簡單測試, 以及Blackwell架構下的一些嘗試 (僅限Dense模型)

已定时 已固定 已锁定 已移动 AI硬件
41 帖子 6 发布者 438 浏览 2 关注中
  • 从旧到新
  • 从新到旧
  • 最多赞同
回复
  • 在新帖中回复
登录后回复
此主题已被删除。只有拥有主题管理权限的用户可以查看。
  • 5 566656661

    以下是研究途中的碎碎唸, 不感興趣的可以不看


    碎碎唸1

    看了蠻多文件跟大神文章, 有幾個值得留意的地方

    Blackwell架構分成了Consumer Blackwell (sm 12x) 跟 Data Center Blackwell (sm 10x)
    
    所有Geforce, RTX Pro, DGX Spark, RTX Spark都歸屬在Consumer Blackwell
    
    其中最大的分別就是在於sm 12x缺少了tcgen05, 這也是Flash Attention 4裏面的核心技術
    
    底層MMA邏輯裏用的還是SM8X, 也就是目前的Flash Attention 2
    
    好家夥, 老黃這算不算是在欺詐啊...
    
    https://docs.vllm.ai/en/stable/configuration/env_vars/
    
    v0.22 cu129可以在--linear-backend (前身VLLM_NVFP4_GEMM_BACKEND)使用flashinfer-b12x而不是flashinfer-cutlass
    
    MoE模型 (Qwen 3.6 35BA3B 跟 Gemma 4 26BA4B) 可以通過在--moe-backend 設置flashinfer_b12x
    
    這個是特意為sm 12x架構優化的GEMM内核
    
    約有30%throughput增長, https://github.com/vllm-project/vllm/pull/39634
    
    這個我有點興趣先再試試看
    

    碎碎唸2 (吐槽)

    在一邊看vLLM文件一邊跑去問了Gemini, 講明了是Blackwell架構,居然還給了個VLLM_MXFP4_BACKEND=marlin, 先不説直接無視掉NVFP4, marlin是給沒有FP4硬件加速的啊... (NVFP4或者MXFP4都可用)

    VLLM_FLASHINFER_MOE_BACKEND還給了throughput這個預設參數, 也沒改成--moe-backend flashinfer_cutlass (雖然這個在27b 模型沒用到)

    錯誤示範, 不要學

    docker run -d \
      --name vllm-Huihui-Qwen3.6-27B-abliterated-NVFP4-MTP \
      (中間省略)
      -e SERVED_MODEL_NAME="Huihui-Qwen3.6-27B-abliterated-NVFP4-MTP" \
      -e VLLM_ATTENTION_BACKEND="FLASHINFER" \
      -e VLLM_MXFP4_BACKEND="marlin" \
      -e VLLM_FLASHINFER_MOE_BACKEND="throughput" \
      -e VLLM_USE_FLASHINFER_SAMPLER="1" \
      -e VLLM_EXTRA_ARGS=
      (以下省略)
    
    5 离线
    5 离线
    566656661
    编写于 最后由 566656661 编辑
    #24

    碎碎唸3

    --linear-backend估計因爲太新

    用cu130 nightly跑會吵沒有這個選項

    用cu129 v0.22.1跑會說cu129 不支持cu130的b12x

    這個可能要等cu130出v0.22了


    c8b6ecff-1c9b-4319-82e0-93fb10c2b5b1-image.jpeg

    可是moe在v0.22又支持是什麽鬼

    1 条回复 最后回复
    0
    • W 离线
      W 离线
      wml-ai
      编写于 最后由 编辑
      #25

      @566656661 噪音怎么样?外置的是不是更明显?能用llama.cpp 测试一下吗?4500 比 9700 贵 1.2万,当时也看了很久,超预算了,一咬牙——没买。😂

      5 rolex loR 2 条回复 最后回复
      0
      • W wml-ai

        @566656661 噪音怎么样?外置的是不是更明显?能用llama.cpp 测试一下吗?4500 比 9700 贵 1.2万,当时也看了很久,超预算了,一咬牙——没买。😂

        5 离线
        5 离线
        566656661
        编写于 最后由 编辑
        #26

        @wml-ai

        噪音的話很安靜, 畢竟只有200w, 有load的時候風扇只有70%轉速

        llama.cpp的話還沒太認真玩過, 我找個時間試試看

        1 条回复 最后回复
        0
        • W wml-ai

          @566656661 噪音怎么样?外置的是不是更明显?能用llama.cpp 测试一下吗?4500 比 9700 贵 1.2万,当时也看了很久,超预算了,一咬牙——没买。😂

          rolex loR 离线
          rolex loR 离线
          rolex lo
          编写于 最后由 rolex lo 编辑
          #27

          @wml-ai 一樣想法, 半年前想想, 應該不會入AI 坑吧
          最後, 乖乖上會. 半年前 應該不會是1.2萬?

          現在已經1.4萬...

          我再想想的話, 應該要進老人院了...(被淘汰...😁 )

          1 条回复 最后回复
          0
          • F 离线
            F 离线
            fanwen1974
            编写于 最后由 编辑
            #28

            小疑問 , 買RTX Pro 4500 為何不買 5090 ?

            rolex loR 5 2 条回复 最后回复
            0
            • F fanwen1974

              小疑問 , 買RTX Pro 4500 為何不買 5090 ?

              rolex loR 离线
              rolex loR 离线
              rolex lo
              编写于 最后由 编辑
              #29

              @fanwen1974 性價比問題。兩張卡價錢完全不同。
              本身起始點是R9700, 小弟比較清窮,沒法子拿出個3,5,7萬出來爽爽
              有能力的5090只是甜點,更應買更多VRAM🤣

              就小弟能力所限只可以買4500

              功率低,比R9700好
              最重要價錢相宜,能負擔(剛剛再問代理又漲價3000🤣)
              沒有最好,只有合適

              1 条回复 最后回复
              0
              • F fanwen1974

                小疑問 , 買RTX Pro 4500 為何不買 5090 ?

                5 离线
                5 离线
                566656661
                编写于 最后由 编辑
                #30

                @fanwen1974

                以混合用途LLM + 遊戲的話當然是5090 / 5090D比較好

                但是整組組合一來只會作為伺服器使用, 不負責拿來玩ComfyUI, 核心再多性能也沒用, 最主要的瓶頸位在VRAM上面

                二來5090燒接頭的問題讓我不太放心在沒人看著的時候用, 5090最低也有400w, 這張卡只有200w

                三來香港的5090D跟5090其實比RTX Pro 4500還要更貴, 5090D現在已經沒有全新只有二手了, 最便宜2萬3, 正常2萬5以上, 還只剩最多2年的保養, 因大多數5090D卡都2025年年頭買, 保養到28年年頭, 正常5090已經是2萬8到3萬2了, 然後我這張卡2萬2, 全新3年保修

                CS6C F 2 条回复 最后回复
                0
                • 5 566656661

                  @fanwen1974

                  以混合用途LLM + 遊戲的話當然是5090 / 5090D比較好

                  但是整組組合一來只會作為伺服器使用, 不負責拿來玩ComfyUI, 核心再多性能也沒用, 最主要的瓶頸位在VRAM上面

                  二來5090燒接頭的問題讓我不太放心在沒人看著的時候用, 5090最低也有400w, 這張卡只有200w

                  三來香港的5090D跟5090其實比RTX Pro 4500還要更貴, 5090D現在已經沒有全新只有二手了, 最便宜2萬3, 正常2萬5以上, 還只剩最多2年的保養, 因大多數5090D卡都2025年年頭買, 保養到28年年頭, 正常5090已經是2萬8到3萬2了, 然後我這張卡2萬2, 全新3年保修

                  CS6C 在线
                  CS6C 在线
                  CS6
                  编写于 最后由 编辑
                  #31

                  @566656661 現在還買得到這個價位的嗎? 有的話我可以飛一趟香港。

                  5 1 条回复 最后回复
                  0
                  • 5 566656661

                    @fanwen1974

                    以混合用途LLM + 遊戲的話當然是5090 / 5090D比較好

                    但是整組組合一來只會作為伺服器使用, 不負責拿來玩ComfyUI, 核心再多性能也沒用, 最主要的瓶頸位在VRAM上面

                    二來5090燒接頭的問題讓我不太放心在沒人看著的時候用, 5090最低也有400w, 這張卡只有200w

                    三來香港的5090D跟5090其實比RTX Pro 4500還要更貴, 5090D現在已經沒有全新只有二手了, 最便宜2萬3, 正常2萬5以上, 還只剩最多2年的保養, 因大多數5090D卡都2025年年頭買, 保養到28年年頭, 正常5090已經是2萬8到3萬2了, 然後我這張卡2萬2, 全新3年保修

                    F 离线
                    F 离线
                    fanwen1974
                    编写于 最后由 fanwen1974 编辑
                    #32

                    @566656661 了解,可能我在臺灣,5900 跟 RTX 4500 差不多價錢,才有這個疑問。臺灣的 RTX Pro 都太貴。開個COMPUTEX , RTX Pro 6000 本來 38 萬 變 48 萬,神經病~

                    CS6C 1 条回复 最后回复
                    1
                    • CS6C CS6

                      @566656661 現在還買得到這個價位的嗎? 有的話我可以飛一趟香港。

                      5 离线
                      5 离线
                      566656661
                      编写于 最后由 编辑
                      #33

                      @CS6

                      現在當然沒有啦, 都升到2萬5了, 剛好卡在二手5090D低一點的位置

                      CS6C 1 条回复 最后回复
                      0
                      • F fanwen1974

                        @566656661 了解,可能我在臺灣,5900 跟 RTX 4500 差不多價錢,才有這個疑問。臺灣的 RTX Pro 都太貴。開個COMPUTEX , RTX Pro 6000 本來 38 萬 變 48 萬,神經病~

                        CS6C 在线
                        CS6C 在线
                        CS6
                        编写于 最后由 CS6 编辑
                        #34

                        @fanwen1974 現金價的話,5090可能會比較便宜一點,但如果像我想要刷卡12到24 期基本上就只有 Pro 4500 ....,5090 都要配套裝,如果按每個月 1萬來說的話,其實就可以直接往上看到Pro 5000 (24期)

                        1 条回复 最后回复
                        0
                        • 5 566656661

                          @CS6

                          現在當然沒有啦, 都升到2萬5了, 剛好卡在二手5090D低一點的位置

                          CS6C 在线
                          CS6C 在线
                          CS6
                          编写于 最后由 CS6 编辑
                          #35

                          @566656661 说:

                          2萬5

                          還是比13萬台幣便宜很多....蠻心動的,缺點應該是保固要送回香港

                          5 1 条回复 最后回复
                          0
                          • CS6C CS6

                            @566656661 说:

                            2萬5

                            還是比13萬台幣便宜很多....蠻心動的,缺點應該是保固要送回香港

                            5 离线
                            5 离线
                            566656661
                            编写于 最后由 566656661 编辑
                            #36

                            @CS6

                            這個2萬5還是商家3月頭4月標定的, 很有可能下單又變了

                            CS6C 1 条回复 最后回复
                            0
                            • 5 566656661

                              @CS6

                              這個2萬5還是商家3月頭4月標定的, 很有可能下單又變了

                              CS6C 在线
                              CS6C 在线
                              CS6
                              编写于 最后由 编辑
                              #37

                              @566656661 4080s 32g 魔改卡呢? 只要一半價格

                              5 1 条回复 最后回复
                              0
                              • CS6C CS6

                                @566656661 4080s 32g 魔改卡呢? 只要一半價格

                                5 离线
                                5 离线
                                566656661
                                编写于 最后由 566656661 编辑
                                #38

                                @CS6

                                魔改卡那就當然風險自負啊, 錘大不就吃虧了嘛

                                魔改卡因為vbios無法調教, 噪音跟token能耗比會差過專業卡, 現在4080 32 gb都要1萬3到1萬4人民幣, 港幣1萬6到1萬7左右了, 相對起R9700的1萬多一點瞬間就沒什麼吸引力

                                我之前也有一張4090D 48GB, 就算限制功耗到300w用來半年就頂不住就賣了出去, 虧了大約1千5左右, 算是使用成本吧

                                1 条回复 最后回复
                                0
                                • 5 566656661 被引用 于这个主题
                                • 系统 取消固定了该主题
                                • rolex loR 离线
                                  rolex loR 离线
                                  rolex lo
                                  编写于 最后由 rolex lo 编辑
                                  #39

                                  更新一下香港 pro 4500已經要價27000 ~ 28000 了 5090 大概40000
                                  pro 4500 比之前漲了 2~4000

                                  1 条回复 最后回复
                                  1
                                  • 5 566656661

                                    @rolex-lo

                                    還沒調整好, INT 4估計還能更快

                                    INT4不會更快, 但是可以運用Autoround配合turboquant 4bit nc 壓榨更多KV Cache 空間 (詳情看22樓)

                                    2張R9700走TP 2用Oculink跟 PCIe 5.0 x8 混合使用估計會出事誒, Oculink只有PCIe 4.0 x4, PCIe 5.0 x8, 結果就是只能走PCIe 4.0 x4

                                    W 离线
                                    W 离线
                                    wml-ai
                                    编写于 最后由 编辑
                                    #40

                                    @566656661 说:

                                    @rolex-lo

                                    還沒調整好, INT 4估計還能更快

                                    INT4不會更快, 但是可以運用Autoround配合turboquant 4bit nc 壓榨更多KV Cache 空間 (詳情看22樓)

                                    2張R9700走TP 2用Oculink跟 PCIe 5.0 x8 混合使用估計會出事誒, Oculink只有PCIe 4.0 x4, PCIe 5.0 x8, 結果就是只能走PCIe 4.0 x4

                                    这种情况是推测,还是肯定会发生?

                                    5 1 条回复 最后回复
                                    0
                                    • W wml-ai

                                      @566656661 说:

                                      @rolex-lo

                                      還沒調整好, INT 4估計還能更快

                                      INT4不會更快, 但是可以運用Autoround配合turboquant 4bit nc 壓榨更多KV Cache 空間 (詳情看22樓)

                                      2張R9700走TP 2用Oculink跟 PCIe 5.0 x8 混合使用估計會出事誒, Oculink只有PCIe 4.0 x4, PCIe 5.0 x8, 結果就是只能走PCIe 4.0 x4

                                      这种情况是推测,还是肯定会发生?

                                      5 离线
                                      5 离线
                                      566656661
                                      编写于 最后由 编辑
                                      #41

                                      @wml-ai

                                      推測, 但是基於TP自己需要多卡大量交換數據跟處理結果, PCIe的速度成了關鍵

                                      VLLM的文件推薦使用TP的時候最好有類似NVLINK這樣的跨卡高速通道

                                      1 条回复 最后回复
                                      0

                                      你好!看起来您对这段对话很感兴趣,但您还没有一个账号。

                                      厌倦了每次访问都刷到同样的帖子?您注册账号后,您每次返回时都能精准定位到您上次浏览的位置,并可选择接收新回复通知(通过邮件或推送通知)。您还能收藏书签、为帖子顶,向社区成员表达您的欣赏。

                                      有了你的建议,这篇帖子会更精彩哦 💗

                                      注册 登录
                                      回复
                                      • 在新帖中回复
                                      登录后回复
                                      • 从旧到新
                                      • 从新到旧
                                      • 最多赞同


                                      • 登录

                                      • 没有帐号? 注册

                                      • 登录或注册以进行搜索。
                                      • 第一个帖子
                                        最后一个帖子
                                      0
                                      • 版块
                                      • 最新
                                      • 标签
                                      • 热门
                                      • 用户
                                      • 群组