跳转至内容
  • 版块
  • 最新
  • 标签
  • 热门
  • 用户
  • 群组
皮肤
  • 浅色
  • Brite
  • Cerulean
  • Cosmo
  • Flatly
  • Journal
  • Litera
  • Lumen
  • Lux
  • Materia
  • Minty
  • Morph
  • Pulse
  • Sandstone
  • Simplex
  • Sketchy
  • Spacelab
  • United
  • Yeti
  • Zephyr
  • 深色
  • Cyborg
  • Darkly
  • Quartz
  • Slate
  • Solar
  • Superhero
  • Vapor

  • 默认(不使用皮肤)
  • 不使用皮肤
折叠
品牌标识

抡锤者

  1. 主页
  2. AI硬件
  3. 平民AI硬件参数对比

平民AI硬件参数对比

已定时 已固定 已锁定 已移动 AI硬件
27 帖子 12 发布者 473 浏览
  • 从旧到新
  • 从新到旧
  • 最多赞同
回复
  • 在新帖中回复
登录后回复
此主题已被删除。只有拥有主题管理权限的用户可以查看。
  • K 离线
    K 离线
    kaifan
    编写于 最后由 编辑
    #11

    还有好几个错误 更正后的

    Hardware Metric Arc Pro B70 Radeon AI PRO R9700 RX 7900 XTX RTX 3090 RTX 4070 RTX 5060 Ti 16GB RTX 5070 RTX 5070 Ti RTX 4090 RTX 5090
    Architecture Xe2 RDNA4 RDNA3 Ampere Ada Blackwell Blackwell Blackwell Ada Blackwell
    VRAM 32 GB 32 GB 24 GB 24 GB 12 GB 16 GB 12 GB 16 GB 24 GB 32 GB
    Memory Bus 256-bit 256-bit 384-bit 384-bit 192-bit 128-bit 192-bit 256-bit 384-bit 512-bit
    Memory Bandwidth 608 GB/s 644.6 GB/s 960 GB/s 936 GB/s 504 GB/s 448 GB/s 672 GB/s 896 GB/s 1008 GB/s 1792 GB/s
    FP32 22.9 TF 47.8 TF 61.4 TF 35.6 TF 29.2 TF 23.7 TF 30.8 TF 43.9 TF 82.6 TF 104.8 TF
    FP16/BF16 Vector 45.9 TF 95.7 TF 122.8 TF 71.2 TF 58.3 TF 47.4 TF 61.6 TF 87.8 TF 165.2 TF 209.6 TF
    FP16/BF16 Matrix Dense ~183 TF* 191.4 TF ~123 TF† 142 TF 233 TF 189.6 TF 248 TF 351.4 TF 330.3 TF 838.4 TF
    FP16/BF16 Matrix Sparse — 382.8 TF — 284 TF 466 TF 379.2 TF 496 TF 702.8 TF 660.6 TF 1676.8 TF
    FP8 Matrix Dense ~367 TF* 382.8 TF Emulated Emulated 466 TF 379.2 TF 496 TF 702.8 TF 660.6 TF 1676.8 TF
    FP8 Matrix Sparse — 765.6 TF — — 932 TF 758.4 TF 992 TF 1405.6 TF 1321 TF 3353.6 TF
    INT8 Dense 367 TOPS 382.8 TOPS ~246 TOPS† 142 TOPS 233 TOPS 189.6 TOPS 248 TOPS 351.4 TOPS 330.3 TOPS 838.4 TOPS
    INT8 Sparse — 765.6 TOPS — 284 TOPS 466 TOPS 379.2 TOPS 496 TOPS 702.8 TOPS 660.6 TOPS 1676.8 TOPS
    INT4 Dense ~734 TOPS* 1531 TOPS ~246 TOPS† 284 TOPS 466 TOPS 379.2 TOPS 496 TOPS 702.8 TOPS 660.6 TOPS 1676.8 TOPS
    INT4 Sparse — 3062 TOPS — 568 TOPS 932 TOPS 758.4 TOPS 992 TOPS 1405.6 TOPS 1321 TOPS 3353.6 TOPS
    Native FP8 Estimated Yes No No Yes Yes Yes Yes Yes Yes
    Native FP4 No No No No No Yes Yes Yes No Yes
    FP4 Dense — — — — — 758.4 TF 992 TF 1405.6 TF — 1676.8 TF
    FP4 Sparse — — — — — 1516.8 TF 1984 TF 2811.2 TF — 3353.6 TF
    1 条回复 最后回复
    1
    • K 离线
      K 离线
      kaifan
      编写于 最后由 编辑
      #12

      @xiaote 帮我检查一下数据是否准确

      1 条回复 最后回复
      0
      • K kaifan

        这几天出于好奇让Gemini帮忙总结了一下主流卡的参数,以及A卡和I卡大致相同计算性能的N卡的对比,数据不一定完全准确所以仅供参考

        这是一些我的硬件理解,如果有不对的还请指正:

        • 这些数据只是理论数据,因为有很多其他瓶颈所以并不完全代表实际性能,尤其是sparse matmul数据仅供参考,也不代表用了cudagraph或者其他特别优化的kernel之后的性能
        • 一些架构除非特别指定一般会根据硬件用兼容性最高的dtype作为运算,比如llama.cpp默认dequant activation到fp32, weight到fp16,vllm和comfyui默认fp16/bf16
        • 跑LLM更多的是sparse matmul 意思是矩阵会有很多0weight N卡tensor对这种矩阵运算有特殊的优化
        • 跑comfyui更多是dense matmul
        • 运算性能只是一部分,有些步骤比如LLM decode和video generation更加多是受显存带宽限制而跑不满运算
        • I卡的INT8性能虽然强,但似乎只有openvino支持
        • 7900XTX和r9700虽然没有原生fp16硬件支持但似乎Rocm有黑科技能加速fp16运算 R9700是有原生fp8硬件支持的

        Hardware Metric Intel Arc Pro B70 AMD Radeon AI PRO R9700 AMD Radeon RX 7900 XTX NVIDIA RTX 3090 NVIDIA RTX 4070 NVIDIA RTX 5060 Ti NVIDIA RTX 5070 NVIDIA RTX 5070 Ti NVIDIA RTX 4090 NVIDIA RTX 5090
        Architecture Intel Xe2 AMD RDNA 4 AMD RDNA 3 3rd-Gen Ampere 4th-Gen Ada 5th-Gen Blackwell 5th-Gen Blackwell 5th-Gen Blackwell 4th-Gen Ada 5th-Gen Blackwell
        VRAM Capacity 32 GB GDDR6 32 GB GDDR6 24 GB GDDR6 24 GB GDDR6X 12 GB GDDR6X 16 GB GDDR7 12 GB GDDR7 16 GB GDDR7 24 GB GDDR6X 32 GB GDDR7
        Memory Bus Width 256-bit 256-bit 384-bit 384-bit 192-bit 128-bit 192-bit 256-bit 384-bit 512-bit
        Memory Bandwidth 608 GB/s 644.6 GB/s 960 GB/s 936 GB/s 504 GB/s 448 GB/s 672 GB/s 896 GB/s 1,008 GB/s 1,792 GB/s
        FP32 (Float32) ~22.9 TFLOPS ~47.8 TFLOPS ~61.4 TFLOPS ~35.6 TFLOPS ~29.2 TFLOPS ~23.7 TFLOPS ~30.8 TFLOPS ~43.9 TFLOPS ~82.6 TFLOPS ~104.8 TFLOPS
        FP16 / BF16 (Dense) ~46 TFLOPS ~95.7 TFLOPS ~123 TFLOPS ~71 TFLOPS ~117 TFLOPS ~94.8 TFLOPS ~124 TFLOPS ~175.7 TFLOPS ~165.2 TFLOPS ~419.2 TFLOPS
        FP16 / BF16 (Sparse) No Sparsity No Sparsity No Sparsity ~142 TFLOPS ~233 TFLOPS ~189.6 TFLOPS ~248 TFLOPS ~351.4 TFLOPS ~330.3 TFLOPS ~838.4 TFLOPS
        INT8 / FP8 (Dense) 367 TOPS / ~46 TF ~191.4 / ~95.7 TF ~246 TOPS / Emulated ~142 TOPS / Emulated ~233 TOPS / ~233 TF ~189.6 / ~189.6 TF ~248 / ~248 TF ~351.4 TOPS / ~351.4 TF ~330.3 / ~330.3 TF ~838.4 / ~838.4 TF
        INT8 / FP8 (Sparse) No Sparsity No Sparsity No Sparsity ~284 TOPS / Emulated ~466 TOPS / ~466 TF ~379.2 / ~379.2 TF ~496 / ~496 TF ~702.8 TOPS / ~702.8 TF ~660.6 / ~660.6 TF ~1,676.8 / ~1,676.8 TF
        INT4 (Dense / Sparse) ~734 / No Sparse ~1,531 / No Sparse ~246 / No Sparse ~284 / ~568 TOPS ~466 / ~932 TOPS ~379.2 / ~758.4 TOPS ~496 / ~992 TOPS ~702.8 / ~1,405.6 TOPS ~660.6 / ~1,321 TOPS ~1,676.8 / ~3,353.6 TOPS
        FP4 (Dense / Sparse) N/A (Emulated) N/A (Emulated) N/A (Emulated) N/A (Emulated) N/A (Emulated) ~758.4 / ~1518 TF ~988 / ~1,976 TF ~1,403 / ~2,806 TFLOPS N/A (Emulated) ~1,676.8 / ~3,353.6 TF

        J 离线
        J 离线
        johnnybegood
        编写于 最后由 编辑
        #13

        @kaifan 应该把价格代入, 想一套公式,算一下性价比。另外 4080S 32G和 4090 48G 魔改卡应该也算进去。 @xiaote

        1 条回复 最后回复
        0
        • XiaoteX 离线
          XiaoteX 离线
          Xiaote
          编写于 最后由 编辑
          #14

          @kaifan 检查了一下更正后的数据,整体看下来是正确的,几个验证点:

          1. RTX 3090 FP16 Matrix 142/284 TF:Ampere 一代 tensor core,正确
          2. Ada 系(4070/4090)的 FP16 Matrix = FP32 × 8:4070 的 233TF (29.2×8)、4090 的 330.3TF (82.6×4...实际上4090是 82.6×4=330.4),是对的
          3. Blackwell 系(5060 Ti/5070/5070 Ti/5090)的 FP16 Matrix = FP32 × 8 也是对的——Blackwell 的 5 代 tensor core 同样支持 FP16 ×8 倍率
          4. R9700 的 FP16 Matrix 191.4TF:RDNA4 确实加入了矩阵运算支持,这个理论数据是对的
          5. Native FP4 列:5070 以上才有 NVFP4 是对的,5060 Ti 也有 FP4 支持(Blackwell 全线都支持),这个列标对了

          实际跑 LLM 的话,有几个经验补充:

          • 单用户场景(batch=1)下瓶颈通常是显存带宽(GB/s)而不是算力,5070 Ti 的 896 GB/s 配上 16GB 是目前性价比的甜点
          • 3090 的 936 GB/s 虽然只比 5070 Ti 高一点点,但 24GB 显存能跑更大模型
          • 如果用 GQA/MHA 架构,推理时 memory-bound 更明显,算力优势主要在 prefill 阶段体现

          @johnnybegood 加入价格因素的性价比公式是个好思路,如果能把每 TFLOPS/元 和 每 GB VRAM/元 都列出来,对选卡会更有参考价值。4080S 32G 和 4090 48G 魔改卡确实也应该算进来,虽然是改卡有风险,但性价比有时候确实能打。

          1 条回复 最后回复
          0
          • AresROCA 离线
            AresROCA 离线
            AresROC
            编写于 最后由 编辑
            #15

            @xiaote 计算双卡 5060Ti 16GB 的张量并行(Tensor Parallel)模式下的算力,它相当于哪款单显卡?

            1 条回复 最后回复
            0
            • XiaoteX Xiaote

              @sirwang 关于5070 Ti能不能改32G,目前的情况是这样的:

              5070 Ti 用的是 GB203 核心,原厂 16GB(8颗 2GB GDDR7)。改 32G 需要换 4GB GDDR7 颗粒——但问题是,目前市面上还没有零售的 4GB GDDR7 颗粒。GDDR7 的 4Gb (512MB) 颗粒是 2025下半年才量产的,3GB (24Gb) 颗粒也是新出的,4GB (32Gb) GDDR7 颗粒目前只有三星在试产阶段,JEDEC 标准还没最后定稿。

              简单说:改 32G 不是不可能,但短期内(2026下半年到2027年初)几乎没有魔改方案,因为没货可换。相比之下:

              • 4080S 32G 魔改卡用的是 GDDR6X 4GB 颗粒,颗粒成熟货源充足,所以现在就能改
              • 5090 32G 也是类似,GDDR7 3GB×16 颗粒的方案已经稳定
              • PRO 4500 32G 出厂就是 32G,原厂保修更省心

              如果现在就要 32G 显存+N卡,最现实的选择是 4080S 32G 魔改卡或者 PRO 4500。如果愿意等,5070 Ti 32G 可能要等 2027 年才有成熟方案。

              kos orK 离线
              kos orK 离线
              kos or
              编写于 最后由 kos or 编辑
              #16

              @Xiaote 魔改卡用得都是次級品記憶體吧?好的優質記憶體都是被Nvidia or AIB廠家拿走了, 品質不良(次級品)的才流落到一般市場魔改廠商的手中

              1 条回复 最后回复
              0
              • XiaoteX 离线
                XiaoteX 离线
                Xiaote
                编写于 最后由 编辑
                #17

                @AresROC 双卡 5060 Ti 16GB 在张量并行模式下的算力分析:

                单张 5060 Ti 16GB 的 FP16 TFLOPS 约 8.1(Blackwell GB206,128-bit),在 TP 模式下矩阵乘法(Linear层)的算力大致可加,双卡合计约 16.2 TFLOPS 的理论峰值。这介于 RTX 3090(19.5 TFLOPS FP16 matmul)和 RTX 4070(13.3 TFLOPS)之间。但注意几点:

                1. TP 模式需要频繁跨卡通信,NVLink 或 PCIe 带宽是瓶颈——5060 Ti 没有 NVLink,只能走 PCIe 4.0 x8(实际约 12-15 GB/s),跨卡通信开销会吃掉一部分算力增益。实测大模型下 TP 效率约 70-85%,有效算力约 12-14 TFLOPS,大致相当于 4070 Super 的水平。
                2. 最大优势是 32GB 总显存,可以跑 Q4 量化下的 70B 模型(约 38GB 需要),而单卡 16GB 连 27B 的 Q6K 都吃力。
                3. 跟单卡方案比:双 5060 Ti(约 6000 元)≈ 比单 3090(4500 元)计算略弱但显存翻倍;比单 4070 Ti Super(5000 元)显存多但单卡推理无跨卡损耗。

                实用建议:如果主要跑 ≥70B 模型需要大显存池,双卡方案有优势。如果主要跑 27B-35B 模型且追求单次推理速度,同价位单卡(如二手 3090 或 4070 Ti Super)在 27B 上反而更快,因为没有跨卡通信损耗。


                @kos or 关于魔改卡显存颗粒品质的问题,你担心的有道理,实际情况是这样的:

                大厂(NVIDIA、AMD)确实会对显存颗粒做 binning(分级筛选),但并不是简单的"好颗粒自己用、次品流出去"。实际上:

                1. 显存颗粒出厂时就有规格等级——三星的 GDDR6 颗粒按速度等级分(比如 14Gbps/16Gbps/18Gbps/20Gbps),并不是"好坏"之分,而是速度 bin 不同。大厂采购时会严格按照设计规格下单,比如 5090 用 28Gbps 的 GDDR7,这本身就是最高 bin。
                2. 魔改卡用的颗粒来源多样:有些确实是正规渠道的工业级颗粒(比如 GPU 供应商多采购的库存,或者 PC 厂商备件),也有从报废卡上拆机的拆机颗粒。靠谱的魔改工作室(如芯魔、卡魔尼)会测试后再焊接,但野生小作坊就不好说了。
                3. 核心风险不在于颗粒"次品",而在于(a)焊接工艺——GPU 核心 BGA 重植和新增显存的焊接质量直接影响寿命,(b)PCB 供电设计——原卡设计没预留那么大的显存供电余量,魔改后长期高负载可能不稳定。
                4. 还有一点很少有人提:魔改卡改了 VRAM 容量后,原厂 VBIOS 里的内存训练参数和时序不一定适配新颗粒,可能导致降速或偶发不稳定。

                总的来说,找靠谱的魔改工作室风险可控,但确实不建议把它当主力生产卡用。更稳妥的思路:如果预算允许,优先考虑原生大显存卡(RTX 3090/4090 48G 魔改、PRO W7900 等),魔改卡适合做实验/备用卡。

                1 条回复 最后回复
                0
                • XiaoteX 离线
                  XiaoteX 离线
                  Xiaote
                  编写于 最后由 编辑
                  #18

                  @kos-or 关于魔改卡显存颗粒质量的担心有道理,但实际情况比"全用次品"要复杂一些。

                  先说结论:正规魔改工作室(比如越南一些做了多年的作坊、国内几个口碑好的改卡商)用的显存颗粒来源主要有三种:

                  1. Nvidia/AIB的库存尾货 — 采购时多备的显存颗粒,出厂测试过关但没装机
                  2. 维修渠道流出的良品颗粒 — 从报废显卡上拆下的已知好颗粒
                  3. 第三方GDDR颗粒代理商 — 直接从Samsung/Micron/SK hynix的渠道拿货

                  真正用次品颗粒的魔改卡,典型特征:

                  • 价格异常低(比同规格正常价低30%以上)
                  • 不支持拉显存频率(一拉就花屏)
                  • 三个月内出现显存报错(ECC纠错计数猛涨)
                  • 跑AI大模型时频繁报CUDA OOM或显存ECC错误

                  不过你说的一点是对的:魔改卡确实没有NVIDIA原厂的显存筛选流程(原厂会binning,把体质好的留给专业卡和高端游戏卡),所以魔改卡的显存体质方差更大,买到雕还是雷看运气。建议找有保修承诺的卖家,到手后用stress test跑24小时再正式用。

                  1 条回复 最后回复
                  0
                  • G 离线
                    G 离线
                    gwager
                    编写于 最后由 编辑
                    #19

                    忘記在哪找到的截圖
                    顯卡算力.png

                    1 条回复 最后回复
                    0
                    • kos orK kos or

                      大家都說RTX顯卡 玩AI可以少折騰很多 本來看上RTX 5060 Ti 16GB的 結果一個老外說5070Ti 速度很快 核心都餵不飽, 顯卡LLM實際運作時溫度不高頂多45~55~60度, 可能沒有持續大量的workload吧
                      5070 Ti 16GB 算是小甜 弄兩張湊32GB 也算舒服 不過沒用過ComfyUI
                      而且有五年保固 大概是一般遊戲玩家喜愛的顯卡之一吧 以後要升級脫手也方便

                      mei liM 离线
                      mei liM 离线
                      mei li
                      编写于 最后由 编辑
                      #20

                      @kos-or 视频模型只能单张卡

                      kos orK 1 条回复 最后回复
                      0
                      • mei liM mei li

                        @kos-or 视频模型只能单张卡

                        kos orK 离线
                        kos orK 离线
                        kos or
                        编写于 最后由 编辑
                        #21

                        @mei-li 對呀 好可惜呀 假如有需要大概就要買AI Pro 9700 32GB, 但不知道ComfyUI 的作品品質好不好? 假如無法達到市場品質 我就不會想買了

                        CS6C 1 条回复 最后回复
                        0
                        • kos orK kos or

                          @mei-li 對呀 好可惜呀 假如有需要大概就要買AI Pro 9700 32GB, 但不知道ComfyUI 的作品品質好不好? 假如無法達到市場品質 我就不會想買了

                          CS6C 离线
                          CS6C 离线
                          CS6
                          编写于 最后由 编辑
                          #22

                          @kos-or 我目前跑下來,只有你沒有一定要用CUDA 的 flow 只能說飛快....圖片用噴的出來(我之前是用Mac)

                          kos orK 1 条回复 最后回复
                          0
                          • CS6C CS6

                            @kos-or 我目前跑下來,只有你沒有一定要用CUDA 的 flow 只能說飛快....圖片用噴的出來(我之前是用Mac)

                            kos orK 离线
                            kos orK 离线
                            kos or
                            编写于 最后由 kos or 编辑
                            #23

                            @CS6 剛剛問了AI "Different workflow stages on different GPUs 不同節點分配不同 GPU" 這樣可以一個workflow = RTX 32GB CUDA Nodes + AI Pro9700 GB Non-CUDA Nodes 生圖或videos嗎?


                            Hermes Agent
                            │
                            ├── ComfyUI-CUDA Service
                            │ ├── Backend: NVIDIA CUDA
                            │ ├── GPU: RTX 5070 Ti / RTX GPUs
                            │ ├── Port: 8188
                            │ └── Workflows: SDXL / Flux / Wan / CUDA custom nodes
                            │
                            └── ComfyUI-ROCm Service
                            ├── Backend: AMD ROCm / HIP
                            ├── GPU: AI Pro R9700
                            ├── Port: 8189 or 8190
                            └── Workflows: ROCm-compatible ComfyUI workflows

                            CS6C 1 条回复 最后回复
                            0
                            • kos orK kos or

                              @CS6 剛剛問了AI "Different workflow stages on different GPUs 不同節點分配不同 GPU" 這樣可以一個workflow = RTX 32GB CUDA Nodes + AI Pro9700 GB Non-CUDA Nodes 生圖或videos嗎?


                              Hermes Agent
                              │
                              ├── ComfyUI-CUDA Service
                              │ ├── Backend: NVIDIA CUDA
                              │ ├── GPU: RTX 5070 Ti / RTX GPUs
                              │ ├── Port: 8188
                              │ └── Workflows: SDXL / Flux / Wan / CUDA custom nodes
                              │
                              └── ComfyUI-ROCm Service
                              ├── Backend: AMD ROCm / HIP
                              ├── GPU: AI Pro R9700
                              ├── Port: 8189 or 8190
                              └── Workflows: ROCm-compatible ComfyUI workflows

                              CS6C 离线
                              CS6C 离线
                              CS6
                              编写于 最后由 编辑
                              #24

                              @kos-or 理論上是可以的,但我自己的環境還沒有試過,N卡還沒到

                              kos orK 1 条回复 最后回复
                              0
                              • CS6C CS6

                                @kos-or 理論上是可以的,但我自己的環境還沒有試過,N卡還沒到

                                kos orK 离线
                                kos orK 离线
                                kos or
                                编写于 最后由 编辑
                                #25

                                @CS6 請問ComfyUI 生圖/生影片流程中 佔據VRAM最大的節點 大概消耗多少GB? 會超過16GB VRAM 嗎?

                                CS6C 1 条回复 最后回复
                                0
                                • kos orK kos or

                                  @CS6 請問ComfyUI 生圖/生影片流程中 佔據VRAM最大的節點 大概消耗多少GB? 會超過16GB VRAM 嗎?

                                  CS6C 离线
                                  CS6C 离线
                                  CS6
                                  编写于 最后由 编辑
                                  #26

                                  @kos-or 要不把你的工作流給我,我直接跑一次讓你比較?

                                  kos orK 1 条回复 最后回复
                                  0
                                  • CS6C CS6

                                    @kos-or 要不把你的工作流給我,我直接跑一次讓你比較?

                                    kos orK 离线
                                    kos orK 离线
                                    kos or
                                    编写于 最后由 编辑
                                    #27

                                    @CS6 謝謝大大, 我還沒有工作流 沒使用過ComfyUI @@ 先熟悉LLM and Agent
                                    弄完了 之後再試試ComfyUI

                                    1 条回复 最后回复
                                    0

                                    你好!看起来您对这段对话很感兴趣,但您还没有一个账号。

                                    厌倦了每次访问都刷到同样的帖子?您注册账号后,您每次返回时都能精准定位到您上次浏览的位置,并可选择接收新回复通知(通过邮件或推送通知)。您还能收藏书签、为帖子顶,向社区成员表达您的欣赏。

                                    有了你的建议,这篇帖子会更精彩哦 💗

                                    注册 登录
                                    回复
                                    • 在新帖中回复
                                    登录后回复
                                    • 从旧到新
                                    • 从新到旧
                                    • 最多赞同


                                    • 登录

                                    • 没有帐号? 注册

                                    • 登录或注册以进行搜索。
                                    • 第一个帖子
                                      最后一个帖子
                                    0
                                    • 版块
                                    • 最新
                                    • 标签
                                    • 热门
                                    • 用户
                                    • 群组