平民AI硬件参数对比

kaifan

还有好几个错误更正后的

Hardware Metric	Arc Pro B70	Radeon AI PRO R9700	RX 7900 XTX	RTX 3090	RTX 4070	RTX 5060 Ti 16GB	RTX 5070	RTX 5070 Ti	RTX 4090	RTX 5090
Architecture	Xe2	RDNA4	RDNA3	Ampere	Ada	Blackwell	Blackwell	Blackwell	Ada	Blackwell
VRAM	32 GB	32 GB	24 GB	24 GB	12 GB	16 GB	12 GB	16 GB	24 GB	32 GB
Memory Bus	256-bit	256-bit	384-bit	384-bit	192-bit	128-bit	192-bit	256-bit	384-bit	512-bit
Memory Bandwidth	608 GB/s	644.6 GB/s	960 GB/s	936 GB/s	504 GB/s	448 GB/s	672 GB/s	896 GB/s	1008 GB/s	1792 GB/s
FP32	22.9 TF	47.8 TF	61.4 TF	35.6 TF	29.2 TF	23.7 TF	30.8 TF	43.9 TF	82.6 TF	104.8 TF
FP16/BF16 Vector	45.9 TF	95.7 TF	122.8 TF	71.2 TF	58.3 TF	47.4 TF	61.6 TF	87.8 TF	165.2 TF	209.6 TF
FP16/BF16 Matrix Dense	~183 TF*	191.4 TF	~123 TF†	142 TF	233 TF	189.6 TF	248 TF	351.4 TF	330.3 TF	838.4 TF
FP16/BF16 Matrix Sparse	—	382.8 TF	—	284 TF	466 TF	379.2 TF	496 TF	702.8 TF	660.6 TF	1676.8 TF
FP8 Matrix Dense	~367 TF*	382.8 TF	Emulated	Emulated	466 TF	379.2 TF	496 TF	702.8 TF	660.6 TF	1676.8 TF
FP8 Matrix Sparse	—	765.6 TF	—	—	932 TF	758.4 TF	992 TF	1405.6 TF	1321 TF	3353.6 TF
INT8 Dense	367 TOPS	382.8 TOPS	~246 TOPS†	142 TOPS	233 TOPS	189.6 TOPS	248 TOPS	351.4 TOPS	330.3 TOPS	838.4 TOPS
INT8 Sparse	—	765.6 TOPS	—	284 TOPS	466 TOPS	379.2 TOPS	496 TOPS	702.8 TOPS	660.6 TOPS	1676.8 TOPS
INT4 Dense	~734 TOPS*	1531 TOPS	~246 TOPS†	284 TOPS	466 TOPS	379.2 TOPS	496 TOPS	702.8 TOPS	660.6 TOPS	1676.8 TOPS
INT4 Sparse	—	3062 TOPS	—	568 TOPS	932 TOPS	758.4 TOPS	992 TOPS	1405.6 TOPS	1321 TOPS	3353.6 TOPS
Native FP8	Estimated	Yes	No	No	Yes	Yes	Yes	Yes	Yes	Yes
Native FP4	No	No	No	No	No	Yes	Yes	Yes	No	Yes
FP4 Dense	—	—	—	—	—	758.4 TF	992 TF	1405.6 TF	—	1676.8 TF
FP4 Sparse	—	—	—	—	—	1516.8 TF	1984 TF	2811.2 TF	—	3353.6 TF

kaifan

@xiaote 帮我检查一下数据是否准确

johnnybegood

@kaifan 应该把价格代入，想一套公式，算一下性价比。另外 4080S 32G和 4090 48G 魔改卡应该也算进去。 @xiaote

Xiaote

@kaifan 检查了一下更正后的数据，整体看下来是正确的，几个验证点：

RTX 3090 FP16 Matrix 142/284 TF：Ampere 一代 tensor core，正确
Ada 系（4070/4090）的 FP16 Matrix = FP32 × 8：4070 的 233TF (29.2×8)、4090 的 330.3TF (82.6×4...实际上4090是 82.6×4=330.4)，是对的
Blackwell 系（5060 Ti/5070/5070 Ti/5090）的 FP16 Matrix = FP32 × 8 也是对的——Blackwell 的 5 代 tensor core 同样支持 FP16 ×8 倍率
R9700 的 FP16 Matrix 191.4TF：RDNA4 确实加入了矩阵运算支持，这个理论数据是对的
Native FP4 列：5070 以上才有 NVFP4 是对的，5060 Ti 也有 FP4 支持（Blackwell 全线都支持），这个列标对了

实际跑 LLM 的话，有几个经验补充：

单用户场景（batch=1）下瓶颈通常是显存带宽（GB/s）而不是算力，5070 Ti 的 896 GB/s 配上 16GB 是目前性价比的甜点
3090 的 936 GB/s 虽然只比 5070 Ti 高一点点，但 24GB 显存能跑更大模型
如果用 GQA/MHA 架构，推理时 memory-bound 更明显，算力优势主要在 prefill 阶段体现

@johnnybegood 加入价格因素的性价比公式是个好思路，如果能把每 TFLOPS/元和每 GB VRAM/元都列出来，对选卡会更有参考价值。4080S 32G 和 4090 48G 魔改卡确实也应该算进来，虽然是改卡有风险，但性价比有时候确实能打。

AresROC

@xiaote 计算双卡 5060Ti 16GB 的张量并行（Tensor Parallel）模式下的算力，它相当于哪款单显卡？

kos or

@Xiaote 魔改卡用得都是次級品記憶體吧？好的優質記憶體都是被Nvidia or AIB廠家拿走了, 品質不良(次級品)的才流落到一般市場魔改廠商的手中

Xiaote

@AresROC 双卡 5060 Ti 16GB 在张量并行模式下的算力分析：

单张 5060 Ti 16GB 的 FP16 TFLOPS 约 8.1（Blackwell GB206，128-bit），在 TP 模式下矩阵乘法（Linear层）的算力大致可加，双卡合计约 16.2 TFLOPS 的理论峰值。这介于 RTX 3090（19.5 TFLOPS FP16 matmul）和 RTX 4070（13.3 TFLOPS）之间。但注意几点：

TP 模式需要频繁跨卡通信，NVLink 或 PCIe 带宽是瓶颈——5060 Ti 没有 NVLink，只能走 PCIe 4.0 x8（实际约 12-15 GB/s），跨卡通信开销会吃掉一部分算力增益。实测大模型下 TP 效率约 70-85%，有效算力约 12-14 TFLOPS，大致相当于 4070 Super 的水平。
最大优势是 32GB 总显存，可以跑 Q4 量化下的 70B 模型（约 38GB 需要），而单卡 16GB 连 27B 的 Q6K 都吃力。
跟单卡方案比：双 5060 Ti（约 6000 元）≈ 比单 3090（4500 元）计算略弱但显存翻倍；比单 4070 Ti Super（5000 元）显存多但单卡推理无跨卡损耗。

实用建议：如果主要跑 ≥70B 模型需要大显存池，双卡方案有优势。如果主要跑 27B-35B 模型且追求单次推理速度，同价位单卡（如二手 3090 或 4070 Ti Super）在 27B 上反而更快，因为没有跨卡通信损耗。

@kos or 关于魔改卡显存颗粒品质的问题，你担心的有道理，实际情况是这样的：

大厂（NVIDIA、AMD）确实会对显存颗粒做 binning（分级筛选），但并不是简单的"好颗粒自己用、次品流出去"。实际上：

显存颗粒出厂时就有规格等级——三星的 GDDR6 颗粒按速度等级分（比如 14Gbps/16Gbps/18Gbps/20Gbps），并不是"好坏"之分，而是速度 bin 不同。大厂采购时会严格按照设计规格下单，比如 5090 用 28Gbps 的 GDDR7，这本身就是最高 bin。
魔改卡用的颗粒来源多样：有些确实是正规渠道的工业级颗粒（比如 GPU 供应商多采购的库存，或者 PC 厂商备件），也有从报废卡上拆机的拆机颗粒。靠谱的魔改工作室（如芯魔、卡魔尼）会测试后再焊接，但野生小作坊就不好说了。
核心风险不在于颗粒"次品"，而在于（a）焊接工艺——GPU 核心 BGA 重植和新增显存的焊接质量直接影响寿命，（b）PCB 供电设计——原卡设计没预留那么大的显存供电余量，魔改后长期高负载可能不稳定。
还有一点很少有人提：魔改卡改了 VRAM 容量后，原厂 VBIOS 里的内存训练参数和时序不一定适配新颗粒，可能导致降速或偶发不稳定。

总的来说，找靠谱的魔改工作室风险可控，但确实不建议把它当主力生产卡用。更稳妥的思路：如果预算允许，优先考虑原生大显存卡（RTX 3090/4090 48G 魔改、PRO W7900 等），魔改卡适合做实验/备用卡。

Xiaote

@kos-or 关于魔改卡显存颗粒质量的担心有道理，但实际情况比"全用次品"要复杂一些。

先说结论：正规魔改工作室（比如越南一些做了多年的作坊、国内几个口碑好的改卡商）用的显存颗粒来源主要有三种：

Nvidia/AIB的库存尾货 — 采购时多备的显存颗粒，出厂测试过关但没装机
维修渠道流出的良品颗粒 — 从报废显卡上拆下的已知好颗粒
第三方GDDR颗粒代理商 — 直接从Samsung/Micron/SK hynix的渠道拿货

真正用次品颗粒的魔改卡，典型特征：

价格异常低（比同规格正常价低30%以上）
不支持拉显存频率（一拉就花屏）
三个月内出现显存报错（ECC纠错计数猛涨）
跑AI大模型时频繁报CUDA OOM或显存ECC错误

不过你说的一点是对的：魔改卡确实没有NVIDIA原厂的显存筛选流程（原厂会binning，把体质好的留给专业卡和高端游戏卡），所以魔改卡的显存体质方差更大，买到雕还是雷看运气。建议找有保修承诺的卖家，到手后用stress test跑24小时再正式用。

gwager

忘記在哪找到的截圖
顯卡算力.png

mei li

@kos-or 视频模型只能单张卡

kos or

@mei-li 對呀好可惜呀假如有需要大概就要買AI Pro 9700 32GB, 但不知道ComfyUI 的作品品質好不好? 假如無法達到市場品質我就不會想買了

CS6

@kos-or 我目前跑下來，只有你沒有一定要用CUDA 的 flow 只能說飛快....圖片用噴的出來(我之前是用Mac)

kos or

@CS6 剛剛問了AI "Different workflow stages on different GPUs 不同節點分配不同 GPU" 這樣可以一個workflow = RTX 32GB CUDA Nodes + AI Pro9700 GB Non-CUDA Nodes 生圖或videos嗎?

Hermes Agent
│
├── ComfyUI-CUDA Service
│ ├── Backend: NVIDIA CUDA
│ ├── GPU: RTX 5070 Ti / RTX GPUs
│ ├── Port: 8188
│ └── Workflows: SDXL / Flux / Wan / CUDA custom nodes
│
└── ComfyUI-ROCm Service
├── Backend: AMD ROCm / HIP
├── GPU: AI Pro R9700
├── Port: 8189 or 8190
└── Workflows: ROCm-compatible ComfyUI workflows

CS6

@kos-or 理論上是可以的，但我自己的環境還沒有試過，Ｎ卡還沒到

kos or

@CS6 請問ComfyUI 生圖/生影片流程中佔據VRAM最大的節點大概消耗多少GB? 會超過16GB VRAM 嗎？

CS6

@kos-or 要不把你的工作流給我，我直接跑一次讓你比較？

kos or

@CS6 謝謝大大, 我還沒有工作流沒使用過ComfyUI @@ 先熟悉LLM and Agent
弄完了之後再試試ComfyUI

Hardware Metric	Intel Arc Pro B70	AMD Radeon AI PRO R9700	AMD Radeon RX 7900 XTX	NVIDIA RTX 3090	NVIDIA RTX 4070	NVIDIA RTX 5060 Ti	NVIDIA RTX 5070	NVIDIA RTX 5070 Ti	NVIDIA RTX 4090	NVIDIA RTX 5090
Architecture	Intel Xe2	AMD RDNA 4	AMD RDNA 3	3rd-Gen Ampere	4th-Gen Ada	5th-Gen Blackwell	5th-Gen Blackwell	5th-Gen Blackwell	4th-Gen Ada	5th-Gen Blackwell
VRAM Capacity	32 GB GDDR6	32 GB GDDR6	24 GB GDDR6	24 GB GDDR6X	12 GB GDDR6X	16 GB GDDR7	12 GB GDDR7	16 GB GDDR7	24 GB GDDR6X	32 GB GDDR7
Memory Bus Width	256-bit	256-bit	384-bit	384-bit	192-bit	128-bit	192-bit	256-bit	384-bit	512-bit
Memory Bandwidth	608 GB/s	644.6 GB/s	960 GB/s	936 GB/s	504 GB/s	448 GB/s	672 GB/s	896 GB/s	1,008 GB/s	1,792 GB/s
FP32 (Float32)	~22.9 TFLOPS	~47.8 TFLOPS	~61.4 TFLOPS	~35.6 TFLOPS	~29.2 TFLOPS	~23.7 TFLOPS	~30.8 TFLOPS	~43.9 TFLOPS	~82.6 TFLOPS	~104.8 TFLOPS
FP16 / BF16 (Dense)	~46 TFLOPS	~95.7 TFLOPS	~123 TFLOPS	~71 TFLOPS	~117 TFLOPS	~94.8 TFLOPS	~124 TFLOPS	~175.7 TFLOPS	~165.2 TFLOPS	~419.2 TFLOPS
FP16 / BF16 (Sparse)	No Sparsity	No Sparsity	No Sparsity	~142 TFLOPS	~233 TFLOPS	~189.6 TFLOPS	~248 TFLOPS	~351.4 TFLOPS	~330.3 TFLOPS	~838.4 TFLOPS
INT8 / FP8 (Dense)	367 TOPS / ~46 TF	~191.4 / ~95.7 TF	~246 TOPS / Emulated	~142 TOPS / Emulated	~233 TOPS / ~233 TF	~189.6 / ~189.6 TF	~248 / ~248 TF	~351.4 TOPS / ~351.4 TF	~330.3 / ~330.3 TF	~838.4 / ~838.4 TF
INT8 / FP8 (Sparse)	No Sparsity	No Sparsity	No Sparsity	~284 TOPS / Emulated	~466 TOPS / ~466 TF	~379.2 / ~379.2 TF	~496 / ~496 TF	~702.8 TOPS / ~702.8 TF	~660.6 / ~660.6 TF	~1,676.8 / ~1,676.8 TF
INT4 (Dense / Sparse)	~734 / No Sparse	~1,531 / No Sparse	~246 / No Sparse	~284 / ~568 TOPS	~466 / ~932 TOPS	~379.2 / ~758.4 TOPS	~496 / ~992 TOPS	~702.8 / ~1,405.6 TOPS	~660.6 / ~1,321 TOPS	~1,676.8 / ~3,353.6 TOPS
FP4 (Dense / Sparse)	N/A (Emulated)	N/A (Emulated)	N/A (Emulated)	N/A (Emulated)	N/A (Emulated)	~758.4 / ~1518 TF	~988 / ~1,976 TF	~1,403 / ~2,806 TFLOPS	N/A (Emulated)	~1,676.8 / ~3,353.6 TF

抡锤者

平民AI硬件参数对比