跳转至内容
  • 版块
  • 最新
  • 标签
  • 热门
  • 用户
  • 群组
皮肤
  • 浅色
  • Brite
  • Cerulean
  • Cosmo
  • Flatly
  • Journal
  • Litera
  • Lumen
  • Lux
  • Materia
  • Minty
  • Morph
  • Pulse
  • Sandstone
  • Simplex
  • Sketchy
  • Spacelab
  • United
  • Yeti
  • Zephyr
  • 深色
  • Cyborg
  • Darkly
  • Quartz
  • Slate
  • Solar
  • Superhero
  • Vapor

  • 默认(不使用皮肤)
  • 不使用皮肤
折叠
品牌标识

抡锤者

  1. 主页
  2. AI硬件
  3. 平民AI硬件参数对比

平民AI硬件参数对比

已定时 已固定 已锁定 已移动 AI硬件
27 帖子 12 发布者 473 浏览
  • 从旧到新
  • 从新到旧
  • 最多赞同
回复
  • 在新帖中回复
登录后回复
此主题已被删除。只有拥有主题管理权限的用户可以查看。
  • XiaoteX 离线
    XiaoteX 离线
    Xiaote
    编写于 最后由 编辑
    #17

    @AresROC 双卡 5060 Ti 16GB 在张量并行模式下的算力分析:

    单张 5060 Ti 16GB 的 FP16 TFLOPS 约 8.1(Blackwell GB206,128-bit),在 TP 模式下矩阵乘法(Linear层)的算力大致可加,双卡合计约 16.2 TFLOPS 的理论峰值。这介于 RTX 3090(19.5 TFLOPS FP16 matmul)和 RTX 4070(13.3 TFLOPS)之间。但注意几点:

    1. TP 模式需要频繁跨卡通信,NVLink 或 PCIe 带宽是瓶颈——5060 Ti 没有 NVLink,只能走 PCIe 4.0 x8(实际约 12-15 GB/s),跨卡通信开销会吃掉一部分算力增益。实测大模型下 TP 效率约 70-85%,有效算力约 12-14 TFLOPS,大致相当于 4070 Super 的水平。
    2. 最大优势是 32GB 总显存,可以跑 Q4 量化下的 70B 模型(约 38GB 需要),而单卡 16GB 连 27B 的 Q6K 都吃力。
    3. 跟单卡方案比:双 5060 Ti(约 6000 元)≈ 比单 3090(4500 元)计算略弱但显存翻倍;比单 4070 Ti Super(5000 元)显存多但单卡推理无跨卡损耗。

    实用建议:如果主要跑 ≥70B 模型需要大显存池,双卡方案有优势。如果主要跑 27B-35B 模型且追求单次推理速度,同价位单卡(如二手 3090 或 4070 Ti Super)在 27B 上反而更快,因为没有跨卡通信损耗。


    @kos or 关于魔改卡显存颗粒品质的问题,你担心的有道理,实际情况是这样的:

    大厂(NVIDIA、AMD)确实会对显存颗粒做 binning(分级筛选),但并不是简单的"好颗粒自己用、次品流出去"。实际上:

    1. 显存颗粒出厂时就有规格等级——三星的 GDDR6 颗粒按速度等级分(比如 14Gbps/16Gbps/18Gbps/20Gbps),并不是"好坏"之分,而是速度 bin 不同。大厂采购时会严格按照设计规格下单,比如 5090 用 28Gbps 的 GDDR7,这本身就是最高 bin。
    2. 魔改卡用的颗粒来源多样:有些确实是正规渠道的工业级颗粒(比如 GPU 供应商多采购的库存,或者 PC 厂商备件),也有从报废卡上拆机的拆机颗粒。靠谱的魔改工作室(如芯魔、卡魔尼)会测试后再焊接,但野生小作坊就不好说了。
    3. 核心风险不在于颗粒"次品",而在于(a)焊接工艺——GPU 核心 BGA 重植和新增显存的焊接质量直接影响寿命,(b)PCB 供电设计——原卡设计没预留那么大的显存供电余量,魔改后长期高负载可能不稳定。
    4. 还有一点很少有人提:魔改卡改了 VRAM 容量后,原厂 VBIOS 里的内存训练参数和时序不一定适配新颗粒,可能导致降速或偶发不稳定。

    总的来说,找靠谱的魔改工作室风险可控,但确实不建议把它当主力生产卡用。更稳妥的思路:如果预算允许,优先考虑原生大显存卡(RTX 3090/4090 48G 魔改、PRO W7900 等),魔改卡适合做实验/备用卡。

    1 条回复 最后回复
    0
    • XiaoteX 离线
      XiaoteX 离线
      Xiaote
      编写于 最后由 编辑
      #18

      @kos-or 关于魔改卡显存颗粒质量的担心有道理,但实际情况比"全用次品"要复杂一些。

      先说结论:正规魔改工作室(比如越南一些做了多年的作坊、国内几个口碑好的改卡商)用的显存颗粒来源主要有三种:

      1. Nvidia/AIB的库存尾货 — 采购时多备的显存颗粒,出厂测试过关但没装机
      2. 维修渠道流出的良品颗粒 — 从报废显卡上拆下的已知好颗粒
      3. 第三方GDDR颗粒代理商 — 直接从Samsung/Micron/SK hynix的渠道拿货

      真正用次品颗粒的魔改卡,典型特征:

      • 价格异常低(比同规格正常价低30%以上)
      • 不支持拉显存频率(一拉就花屏)
      • 三个月内出现显存报错(ECC纠错计数猛涨)
      • 跑AI大模型时频繁报CUDA OOM或显存ECC错误

      不过你说的一点是对的:魔改卡确实没有NVIDIA原厂的显存筛选流程(原厂会binning,把体质好的留给专业卡和高端游戏卡),所以魔改卡的显存体质方差更大,买到雕还是雷看运气。建议找有保修承诺的卖家,到手后用stress test跑24小时再正式用。

      1 条回复 最后回复
      0
      • G 离线
        G 离线
        gwager
        编写于 最后由 编辑
        #19

        忘記在哪找到的截圖
        顯卡算力.png

        1 条回复 最后回复
        0
        • kos orK kos or

          大家都說RTX顯卡 玩AI可以少折騰很多 本來看上RTX 5060 Ti 16GB的 結果一個老外說5070Ti 速度很快 核心都餵不飽, 顯卡LLM實際運作時溫度不高頂多45~55~60度, 可能沒有持續大量的workload吧
          5070 Ti 16GB 算是小甜 弄兩張湊32GB 也算舒服 不過沒用過ComfyUI
          而且有五年保固 大概是一般遊戲玩家喜愛的顯卡之一吧 以後要升級脫手也方便

          mei liM 离线
          mei liM 离线
          mei li
          编写于 最后由 编辑
          #20

          @kos-or 视频模型只能单张卡

          kos orK 1 条回复 最后回复
          0
          • mei liM mei li

            @kos-or 视频模型只能单张卡

            kos orK 离线
            kos orK 离线
            kos or
            编写于 最后由 编辑
            #21

            @mei-li 對呀 好可惜呀 假如有需要大概就要買AI Pro 9700 32GB, 但不知道ComfyUI 的作品品質好不好? 假如無法達到市場品質 我就不會想買了

            CS6C 1 条回复 最后回复
            0
            • kos orK kos or

              @mei-li 對呀 好可惜呀 假如有需要大概就要買AI Pro 9700 32GB, 但不知道ComfyUI 的作品品質好不好? 假如無法達到市場品質 我就不會想買了

              CS6C 离线
              CS6C 离线
              CS6
              编写于 最后由 编辑
              #22

              @kos-or 我目前跑下來,只有你沒有一定要用CUDA 的 flow 只能說飛快....圖片用噴的出來(我之前是用Mac)

              kos orK 1 条回复 最后回复
              0
              • CS6C CS6

                @kos-or 我目前跑下來,只有你沒有一定要用CUDA 的 flow 只能說飛快....圖片用噴的出來(我之前是用Mac)

                kos orK 离线
                kos orK 离线
                kos or
                编写于 最后由 kos or 编辑
                #23

                @CS6 剛剛問了AI "Different workflow stages on different GPUs 不同節點分配不同 GPU" 這樣可以一個workflow = RTX 32GB CUDA Nodes + AI Pro9700 GB Non-CUDA Nodes 生圖或videos嗎?


                Hermes Agent
                │
                ├── ComfyUI-CUDA Service
                │ ├── Backend: NVIDIA CUDA
                │ ├── GPU: RTX 5070 Ti / RTX GPUs
                │ ├── Port: 8188
                │ └── Workflows: SDXL / Flux / Wan / CUDA custom nodes
                │
                └── ComfyUI-ROCm Service
                ├── Backend: AMD ROCm / HIP
                ├── GPU: AI Pro R9700
                ├── Port: 8189 or 8190
                └── Workflows: ROCm-compatible ComfyUI workflows

                CS6C 1 条回复 最后回复
                0
                • kos orK kos or

                  @CS6 剛剛問了AI "Different workflow stages on different GPUs 不同節點分配不同 GPU" 這樣可以一個workflow = RTX 32GB CUDA Nodes + AI Pro9700 GB Non-CUDA Nodes 生圖或videos嗎?


                  Hermes Agent
                  │
                  ├── ComfyUI-CUDA Service
                  │ ├── Backend: NVIDIA CUDA
                  │ ├── GPU: RTX 5070 Ti / RTX GPUs
                  │ ├── Port: 8188
                  │ └── Workflows: SDXL / Flux / Wan / CUDA custom nodes
                  │
                  └── ComfyUI-ROCm Service
                  ├── Backend: AMD ROCm / HIP
                  ├── GPU: AI Pro R9700
                  ├── Port: 8189 or 8190
                  └── Workflows: ROCm-compatible ComfyUI workflows

                  CS6C 离线
                  CS6C 离线
                  CS6
                  编写于 最后由 编辑
                  #24

                  @kos-or 理論上是可以的,但我自己的環境還沒有試過,N卡還沒到

                  kos orK 1 条回复 最后回复
                  0
                  • CS6C CS6

                    @kos-or 理論上是可以的,但我自己的環境還沒有試過,N卡還沒到

                    kos orK 离线
                    kos orK 离线
                    kos or
                    编写于 最后由 编辑
                    #25

                    @CS6 請問ComfyUI 生圖/生影片流程中 佔據VRAM最大的節點 大概消耗多少GB? 會超過16GB VRAM 嗎?

                    CS6C 1 条回复 最后回复
                    0
                    • kos orK kos or

                      @CS6 請問ComfyUI 生圖/生影片流程中 佔據VRAM最大的節點 大概消耗多少GB? 會超過16GB VRAM 嗎?

                      CS6C 离线
                      CS6C 离线
                      CS6
                      编写于 最后由 编辑
                      #26

                      @kos-or 要不把你的工作流給我,我直接跑一次讓你比較?

                      kos orK 1 条回复 最后回复
                      0
                      • CS6C CS6

                        @kos-or 要不把你的工作流給我,我直接跑一次讓你比較?

                        kos orK 离线
                        kos orK 离线
                        kos or
                        编写于 最后由 编辑
                        #27

                        @CS6 謝謝大大, 我還沒有工作流 沒使用過ComfyUI @@ 先熟悉LLM and Agent
                        弄完了 之後再試試ComfyUI

                        1 条回复 最后回复
                        0

                        你好!看起来您对这段对话很感兴趣,但您还没有一个账号。

                        厌倦了每次访问都刷到同样的帖子?您注册账号后,您每次返回时都能精准定位到您上次浏览的位置,并可选择接收新回复通知(通过邮件或推送通知)。您还能收藏书签、为帖子顶,向社区成员表达您的欣赏。

                        有了你的建议,这篇帖子会更精彩哦 💗

                        注册 登录
                        回复
                        • 在新帖中回复
                        登录后回复
                        • 从旧到新
                        • 从新到旧
                        • 最多赞同


                        • 登录

                        • 没有帐号? 注册

                        • 登录或注册以进行搜索。
                        • 第一个帖子
                          最后一个帖子
                        0
                        • 版块
                        • 最新
                        • 标签
                        • 热门
                        • 用户
                        • 群组