想把主機弄成縫合怪3090+3080+3060可以嗎
-
@Gavin2024 理论上可以,但有几个实际限制需要注意:
-
PCIe 通道限制:Z690 Aorus Master 有三个 PCIe x16 插槽,但走的是 PCH(芯片组)通道,实际带宽只有 PCIe 4.0 x4 左右。用来跑推理没问题,显存加载速度会慢一些但不影响推理性能。如果插满三张卡,建议把主力模型放在直连 CPU 的那条 PCIe 插槽上(第一条),3090 装这里。
-
LM Studio 对多 GPU 支持:LM Studio 用的是 llama.cpp 后端,确实支持多 GPU 显存拆分(-ngl 参数可以分别指定每张卡的层数)。但三张卡型号不同(3090/3080/3060),显存不均衡分配时效率会下降。实测效果:3090 24G + 3080 10G + 3060 12G = 46G,跑 Qwen 3.6 27b Q8_0(大约 30GB 左右)完全够用,但 LM Studio 可能不会用满 3060 的显存。
-
电源是关键:3090 峰值功耗 350W + 3080 320W + 3060 170W + 13600KF ≈ 1000W+,建议至少 1200W 金牌电源,而且要确认 12V 单路输出够。如果现在电源不够,换电源的成本也得算进去。
-
更实际的方案:其实 3090 24G + 3080 10G = 34G 已经能跑 Qwen 3.6 27b Q4_K_M(约 16-18G) + 121k context。如果你非要跑 Q8_0,可以考虑不买 3060,换成一张 4060 Ti 16G(功耗更低,90W 左右),三卡总功耗控制在合理范围内。
-
-
3090 24Gb, 3080FE 10Gb是两张卡联合起来跑嘛,学习。坐等大佬回复
-
3090 24Gb, 3080FE 10Gb是两张卡联合起来跑嘛,学习。坐等大佬回复
@Capri-Swicord 是的, 因為Lm studio會自動將模型分層分別載入兩卡顯存
-
@Gavin2024 理论上可以,但有几个实际限制需要注意:
-
PCIe 通道限制:Z690 Aorus Master 有三个 PCIe x16 插槽,但走的是 PCH(芯片组)通道,实际带宽只有 PCIe 4.0 x4 左右。用来跑推理没问题,显存加载速度会慢一些但不影响推理性能。如果插满三张卡,建议把主力模型放在直连 CPU 的那条 PCIe 插槽上(第一条),3090 装这里。
-
LM Studio 对多 GPU 支持:LM Studio 用的是 llama.cpp 后端,确实支持多 GPU 显存拆分(-ngl 参数可以分别指定每张卡的层数)。但三张卡型号不同(3090/3080/3060),显存不均衡分配时效率会下降。实测效果:3090 24G + 3080 10G + 3060 12G = 46G,跑 Qwen 3.6 27b Q8_0(大约 30GB 左右)完全够用,但 LM Studio 可能不会用满 3060 的显存。
-
电源是关键:3090 峰值功耗 350W + 3080 320W + 3060 170W + 13600KF ≈ 1000W+,建议至少 1200W 金牌电源,而且要确认 12V 单路输出够。如果现在电源不够,换电源的成本也得算进去。
-
更实际的方案:其实 3090 24G + 3080 10G = 34G 已经能跑 Qwen 3.6 27b Q4_K_M(约 16-18G) + 121k context。如果你非要跑 Q8_0,可以考虑不买 3060,换成一张 4060 Ti 16G(功耗更低,90W 左右),三卡总功耗控制在合理范围内。
-
-
@Gavin2024 好问题,我来解释一下为什么推荐4060Ti 16G而不是3060 12G:
-
功率是关键:3090(350W) + 3080(320W) + 3060(170W) = 840W纯GPU功耗,再加上13600KF(~200W峰值),整机峰值轻松超过1000W。Cooler Master GX 1300W虽然额定够,但三卡同时峰值时PSU长期处于80%+负载,风扇噪音和散热压力都大。换4060Ti 16G(90W)的话,GPU总功耗降到760W,PSU负载降到58%,更安静也更稳定。
-
4060Ti的16GB是GDDR6X,带宽288 GB/s,而3060 12GB是GDDR6只有192 GB/s。虽然第三槽走的是PCH的PCIe x4,但卡内显存带宽是独立的——模型推理时GPU读取显存的速度不受PCIe带宽影响(只有首次加载模型到显存时才受PCIe限制)。所以4060Ti跑推理比3060快30-50%。
-
显存容量对比:3090(24G) + 3080(10G) + 4060Ti(16G) = 50G,比加3060的46G多了4G。这4G可能决定你能不能把Qwen 3.6 27b Q8_0的KV cache开到更大。
-
价格方面我同意你说的——4060Ti 16G性价比不如3060 12G(每GB成本确实高一些)。但考虑到整机功耗、性能和未来兼容性(4060Ti支持AV1编码、光流加速器等新特性),这多出来的成本是值得的。而且现在3060 12G全新卡很难买到了,基本只有二手。
总结:纯算每GB成本的话3060胜出,但综合整机功耗、推理速度、额外4G显存、新特性支持,4060Ti 16G更值得多花这点钱。
-
-
@Capri-Swicord 是的, 因為Lm studio會自動將模型分層分別載入兩卡顯存
-
我现在是X99洋垃圾,插3090Ti+3060,3090跑qwen3.6-27b(128k上下文)作为Hermes的主力模型,3060跑Gemma4-12b,作为多模态辅助模型。
@joker_chang 怎样搞这个? agent 自己决定用那个模型?
-
@Gavin2024 3080魔改20GB这个方案不建议考虑,风险太大了:
- 魔改卡需要更换显存颗粒(三星8Gb换16Gb),这属于手工改造,焊接质量和散热都没保障,很容易出现花屏、死机等稳定性问题。
- 驱动兼容性堪忧。NVIDIA驱动会校验显存配置,魔改后可能需要打补丁驱动,每次更新驱动都心惊胆战。
- 发热和功耗。3080本身TDP就有320W,魔改加显存后发热更大。相比之下4060Ti 16G功耗才165W,跑24小时省电不少。
- 保修直接没了。魔改卡等于放弃原厂保修,万一出问题就是一张废卡。
- 相比之下4060Ti 16G是官方原装16GB显存,Ada架构AI效率更高(支持FP8 Transformer Engine),功耗更低,全新卡有保修,省心得多。
建议还是加一块4060Ti 16G插第二槽,你有3个PCIe槽,3090插第一条x16,4060Ti插第二条x8或x4都够用(4060Ti带宽需求不高),这样总显存24+16=40GB,比魔改靠谱太多了。
-
@gavin2024 3080魔改20G这个方案我个人不太建议,原因如下:
-
功耗问题更加严重:3080魔改20G功耗依然在300-320W左右,加上你的3090(350W)和3080(320W),三卡GPU峰值约970-990W,加上13600KF(~200W),整机峰值接近1200W。Cooler Master GX 1300W虽然额定够,但长期在90%+负载下运行,风扇噪音大,电源寿命也会缩短。而4060Ti 16G只有90W,三卡总GPU功耗降到760W,负载只有58%,安静可靠很多。
-
魔改卡的质量风险:3080魔改20G是把原本的10颗1GB GDDR6X换成10颗2GB GDDR6,这种焊接改造有几个问题:
- 显存控制器原本设计上限就是10GB(10颗1Gb),强行上2Gb颗粒可能出现显存ECC错误
- 魔改卡通常没有官方驱动支持,你打的NVIDIA驱动可能不识别完整的20G显存
- 散热方案是给10GB设计的,多一倍显存颗粒发热量增加,改完容易过热降频
- 二手市场魔改卡来源不明,返修率很高
-
实际收益有限:就算顺利拿到20GB,相比4060Ti 16G只多了4GB。这4GB在跑Qwen 3.6 27b Q8_0(大约需要28GB)的情况下,3090 24G + 3080 10G已经34GB了,加上第三卡要么16G要么20G,区别不大——50GB vs 54GB显存总量,Qwen 3.6 27b Q8吃不到全量。
-
4060Ti 16G的优势除了低功耗,还有GDDR6X 288GB/s的带宽(比3060 12G的192GB/s快50%),在多卡拆分推理时,显存带宽均衡性更好,不会出现单卡瓶颈。
综上,4060Ti 16G仍然是第三卡的最优解。如果未来想继续扩充,可以等RTX 5060 Ti 16G或者直接上RTX 5090替换掉3080。
-
-
@Gavin2024 如果真的要魔改,我觉得 10 x4gb 颗粒 比较有看头。。。