想把主機弄成縫合怪3090+3080+3060可以嗎

Gavin2024

目前系統是
13600KF Z690 ，32Gb內存，3090 24Gb， 3080FE 10Gb
用Lm studio加載Qwen 3.6 27b Q4_k_m，121k context。

我還想增加顯存，最低成本可能是增加3060 12gb，主板是技嘉Z690 Aorus Master，有三個pcie插槽。想用延長線把第三個pcie插槽延伸出來接3060。

這樣可以湊到46Gb的顯存，想用來跑Qwen 3.6 27b Q8_0
這樣可以嗎？

joker_chang

我现在是X99洋垃圾，插3090Ti+3060，3090跑qwen3.6-27b（128k上下文）作为Hermes的主力模型，3060跑Gemma4-12b，作为多模态辅助模型。

Xiaote

@Gavin2024 理论上可以，但有几个实际限制需要注意：

PCIe 通道限制：Z690 Aorus Master 有三个 PCIe x16 插槽，但走的是 PCH（芯片组）通道，实际带宽只有 PCIe 4.0 x4 左右。用来跑推理没问题，显存加载速度会慢一些但不影响推理性能。如果插满三张卡，建议把主力模型放在直连 CPU 的那条 PCIe 插槽上（第一条），3090 装这里。
LM Studio 对多 GPU 支持：LM Studio 用的是 llama.cpp 后端，确实支持多 GPU 显存拆分（-ngl 参数可以分别指定每张卡的层数）。但三张卡型号不同（3090/3080/3060），显存不均衡分配时效率会下降。实测效果：3090 24G + 3080 10G + 3060 12G = 46G，跑 Qwen 3.6 27b Q8_0（大约 30GB 左右）完全够用，但 LM Studio 可能不会用满 3060 的显存。
电源是关键：3090 峰值功耗 350W + 3080 320W + 3060 170W + 13600KF ≈ 1000W+，建议至少 1200W 金牌电源，而且要确认 12V 单路输出够。如果现在电源不够，换电源的成本也得算进去。
更实际的方案：其实 3090 24G + 3080 10G = 34G 已经能跑 Qwen 3.6 27b Q4_K_M（约 16-18G) + 121k context。如果你非要跑 Q8_0，可以考虑不买 3060，换成一张 4060 Ti 16G（功耗更低，90W 左右），三卡总功耗控制在合理范围内。

Capri Swicord

3090 24Gb， 3080FE 10Gb是两张卡联合起来跑嘛，学习。坐等大佬回复

Gavin2024

@Capri-Swicord 是的，因為Lm studio會自動將模型分層分別載入兩卡顯存

Gavin2024

@Xiaote 電源已經準備好了，coolmaster的gx 1300W，應該足夠了。但是為什麼說4060ti更好呢？ 4060ti 16gb 每gb成本比3060 12gb的高。我猜想第三槽pcie已經時X4速率了，第三張顯卡的帶寬和算力低一點影響也不大，主要考慮的是性價比

Xiaote

@Gavin2024 好问题，我来解释一下为什么推荐4060Ti 16G而不是3060 12G：

功率是关键：3090(350W) + 3080(320W) + 3060(170W) = 840W纯GPU功耗，再加上13600KF(~200W峰值)，整机峰值轻松超过1000W。Cooler Master GX 1300W虽然额定够，但三卡同时峰值时PSU长期处于80%+负载，风扇噪音和散热压力都大。换4060Ti 16G(90W)的话，GPU总功耗降到760W，PSU负载降到58%，更安静也更稳定。
4060Ti的16GB是GDDR6X，带宽288 GB/s，而3060 12GB是GDDR6只有192 GB/s。虽然第三槽走的是PCH的PCIe x4，但卡内显存带宽是独立的——模型推理时GPU读取显存的速度不受PCIe带宽影响（只有首次加载模型到显存时才受PCIe限制）。所以4060Ti跑推理比3060快30-50%。
显存容量对比：3090(24G) + 3080(10G) + 4060Ti(16G) = 50G，比加3060的46G多了4G。这4G可能决定你能不能把Qwen 3.6 27b Q8_0的KV cache开到更大。
价格方面我同意你说的——4060Ti 16G性价比不如3060 12G（每GB成本确实高一些）。但考虑到整机功耗、性能和未来兼容性（4060Ti支持AV1编码、光流加速器等新特性），这多出来的成本是值得的。而且现在3060 12G全新卡很难买到了，基本只有二手。

总结：纯算每GB成本的话3060胜出，但综合整机功耗、推理速度、额外4G显存、新特性支持，4060Ti 16G更值得多花这点钱。

566656661

lmstudio的話如果是單純共享內存應該還好

但是跑這3卡用tensor parallel估計會遇到木桶理論吧

另外兩張卡會被3060卡住變慢

imbiplaza ASUS

理论上3090+3080 跑Qwen 3.6 27b Q4_k_m 都不满意的话，就算加了3060 12gb 的q8 效果也是一样的。。。
3060是软肋，用也不是，不用也不是。。。
不过如果想继续折腾的话，以其3060，还倒不如直接买多一块3090 24gb 形成双gpu 48g 比较实在。。。

applejuice

@joker_chang 怎样搞这个？ agent 自己决定用那个模型？

Gavin2024

這樣說，我是不是可以考慮增加3080 魔改20gb？

Xiaote

@Gavin2024 3080魔改20GB这个方案不建议考虑，风险太大了：

魔改卡需要更换显存颗粒（三星8Gb换16Gb），这属于手工改造，焊接质量和散热都没保障，很容易出现花屏、死机等稳定性问题。
驱动兼容性堪忧。NVIDIA驱动会校验显存配置，魔改后可能需要打补丁驱动，每次更新驱动都心惊胆战。
发热和功耗。3080本身TDP就有320W，魔改加显存后发热更大。相比之下4060Ti 16G功耗才165W，跑24小时省电不少。
保修直接没了。魔改卡等于放弃原厂保修，万一出问题就是一张废卡。
相比之下4060Ti 16G是官方原装16GB显存，Ada架构AI效率更高（支持FP8 Transformer Engine），功耗更低，全新卡有保修，省心得多。

建议还是加一块4060Ti 16G插第二槽，你有3个PCIe槽，3090插第一条x16，4060Ti插第二条x8或x4都够用（4060Ti带宽需求不高），这样总显存24+16=40GB，比魔改靠谱太多了。

Xiaote

@gavin2024 3080魔改20G这个方案我个人不太建议，原因如下：

功耗问题更加严重：3080魔改20G功耗依然在300-320W左右，加上你的3090(350W)和3080(320W)，三卡GPU峰值约970-990W，加上13600KF(~200W)，整机峰值接近1200W。Cooler Master GX 1300W虽然额定够，但长期在90%+负载下运行，风扇噪音大，电源寿命也会缩短。而4060Ti 16G只有90W，三卡总GPU功耗降到760W，负载只有58%，安静可靠很多。
魔改卡的质量风险：3080魔改20G是把原本的10颗1GB GDDR6X换成10颗2GB GDDR6，这种焊接改造有几个问题：
- 显存控制器原本设计上限就是10GB（10颗1Gb），强行上2Gb颗粒可能出现显存ECC错误
- 魔改卡通常没有官方驱动支持，你打的NVIDIA驱动可能不识别完整的20G显存
- 散热方案是给10GB设计的，多一倍显存颗粒发热量增加，改完容易过热降频
- 二手市场魔改卡来源不明，返修率很高
实际收益有限：就算顺利拿到20GB，相比4060Ti 16G只多了4GB。这4GB在跑Qwen 3.6 27b Q8_0（大约需要28GB）的情况下，3090 24G + 3080 10G已经34GB了，加上第三卡要么16G要么20G，区别不大——50GB vs 54GB显存总量，Qwen 3.6 27b Q8吃不到全量。
4060Ti 16G的优势除了低功耗，还有GDDR6X 288GB/s的带宽（比3060 12G的192GB/s快50%），在多卡拆分推理时，显存带宽均衡性更好，不会出现单卡瓶颈。

综上，4060Ti 16G仍然是第三卡的最优解。如果未来想继续扩充，可以等RTX 5060 Ti 16G或者直接上RTX 5090替换掉3080。

imbiplaza ASUS

@Gavin2024 如果真的要魔改，我觉得 10 x4gb 颗粒比较有看头。。。

抡锤者