找到个蛮有用的用3090部署本地模型的repo
-
https://github.com/noonghunna/club-3090
这个repo跟新得蛮快的,最近在用dflash
bash scripts/launch.sh --variant beellama/dflash
准备过两天在进一张3090跑双卡,这个repo也有支持
-
5 566656661 被引用 于这个主题
-
https://github.com/noonghunna/club-3090
这个repo跟新得蛮快的,最近在用dflash
bash scripts/launch.sh --variant beellama/dflash
准备过两天在进一张3090跑双卡,这个repo也有支持
@Larry-Wang 楼主的主板平台是怎样选的? 我也想加多张3090,但是最近涨了几百块,还在观望。 而且目前3090 跑的这些 可选变种:
- llamacpp/mtp (unsloth Q4_K_M)
- llamacpp/mtpqwopus (Qwopus IQ4_XS)
- llamacpp/mtpqwopusq4 (Qwopus Q4_K_M)
- llamacpp/mtpiq4nl (IQ4_NL MTP)
- ik-llama/iq4ks-mtp (ubergarm IQ4_KS)
- llamacpp/mtpqwopus-vis (Qwopus IQ4_XS + Vision)
- beellama/dflash (Q5_K_S + DFlash IQ4_XS) 160K ctx
- llamacpp/omnimerge-iq4xs-mtp (Omnimerge-v4 IQ4_XS + q5_0 KV)
我日常使用第4个基本OK了, K V CACHE统一Q4上下文200K
-
@Larry-Wang 楼主的主板平台是怎样选的? 我也想加多张3090,但是最近涨了几百块,还在观望。 而且目前3090 跑的这些 可选变种:
- llamacpp/mtp (unsloth Q4_K_M)
- llamacpp/mtpqwopus (Qwopus IQ4_XS)
- llamacpp/mtpqwopusq4 (Qwopus Q4_K_M)
- llamacpp/mtpiq4nl (IQ4_NL MTP)
- ik-llama/iq4ks-mtp (ubergarm IQ4_KS)
- llamacpp/mtpqwopus-vis (Qwopus IQ4_XS + Vision)
- beellama/dflash (Q5_K_S + DFlash IQ4_XS) 160K ctx
- llamacpp/omnimerge-iq4xs-mtp (Omnimerge-v4 IQ4_XS + q5_0 KV)
我日常使用第4个基本OK了, K V CACHE统一Q4上下文200K
@Larry-Wang 楼主的主板平台是怎样选的? 我也想加多张3090,但是最近涨了几百块,还在观望。 而且目前3090 跑的这些 可选变种:
- llamacpp/mtp (unsloth Q4_K_M)
- llamacpp/mtpqwopus (Qwopus IQ4_XS)
- llamacpp/mtpqwopusq4 (Qwopus Q4_K_M)
- llamacpp/mtpiq4nl (IQ4_NL MTP)
- ik-llama/iq4ks-mtp (ubergarm IQ4_KS)
- llamacpp/mtpqwopus-vis (Qwopus IQ4_XS + Vision)
- beellama/dflash (Q5_K_S + DFlash IQ4_XS) 160K ctx
- llamacpp/omnimerge-iq4xs-mtp (Omnimerge-v4 IQ4_XS + q5_0 KV)
我日常使用第4个基本OK了, K V CACHE统一Q4上下文200K
双3090 当然是vllm 了
-
@stxpnet 关于双卡3090的主板选择,补充几点供参考:
双3090对主板的核心要求:一是PCIe通道数够分,二是物理间距够插。
1. 通道分配方案
3090在PCIe 4.0 x8下性能损失很小(实测约2-5%),所以不一定要硬上x16/x16。
常见方案:
- X99双路 + 鸡血BIOS:最便宜的选择,单路40条PCIe 3.0通道,插两张卡可以x16/x16。配合E5 2690v3(30元)性价比极高。
- X299(i9-7960X/7980XE等):44条PCIe 3.0通道,可以拆成x16/x16/x8三槽或x16/x16双槽。缺点是平台贵。
- TRX40(Threadripper 3960X/3970X):64条PCIe 4.0通道,最充裕的选择,两张卡各x16完全没问题,还能插U.2 SSD。不过TRX40主板+CPU二手也要2000+。
- Z790/Z690 + PCIe bifurcation:有些Z790板子支持PCIe拆分(需要BIOS里把x16拆成x8/x8),再配合转接卡或直插第二槽(看主板PCIe布局)。省钱但选择面窄,且只能插两张不能插更多。
2. 物理间距注意
3090基本都是3槽厚度。两张卡紧挨着插,上面那张会被下面那张的热风直吹,VRAM温度轻松破100度。最好选:
- 有3-4个PCIe x16物理槽且间距足够的ATX/E-ATX板
- 或者用PCIe延长线/竖装,把两张卡物理分开
3. 电源也是大头
两张3090满载接近800W,加上CPU和周边,建议至少1200W金牌以上电源。
如果你预算有限,X99双路+2690v3+鸡血BIOS是目前性价比最高的路线,整套板U内存不到500元就能搞定,省下的钱加显存或上更好的卡。
-
@stxpnet 关于双卡3090的主板选择,补充几点供参考:
双3090对主板的核心要求:一是PCIe通道数够分,二是物理间距够插。
1. 通道分配方案
3090在PCIe 4.0 x8下性能损失很小(实测约2-5%),所以不一定要硬上x16/x16。
常见方案:
- X99双路 + 鸡血BIOS:最便宜的选择,单路40条PCIe 3.0通道,插两张卡可以x16/x16。配合E5 2690v3(30元)性价比极高。
- X299(i9-7960X/7980XE等):44条PCIe 3.0通道,可以拆成x16/x16/x8三槽或x16/x16双槽。缺点是平台贵。
- TRX40(Threadripper 3960X/3970X):64条PCIe 4.0通道,最充裕的选择,两张卡各x16完全没问题,还能插U.2 SSD。不过TRX40主板+CPU二手也要2000+。
- Z790/Z690 + PCIe bifurcation:有些Z790板子支持PCIe拆分(需要BIOS里把x16拆成x8/x8),再配合转接卡或直插第二槽(看主板PCIe布局)。省钱但选择面窄,且只能插两张不能插更多。
2. 物理间距注意
3090基本都是3槽厚度。两张卡紧挨着插,上面那张会被下面那张的热风直吹,VRAM温度轻松破100度。最好选:
- 有3-4个PCIe x16物理槽且间距足够的ATX/E-ATX板
- 或者用PCIe延长线/竖装,把两张卡物理分开
3. 电源也是大头
两张3090满载接近800W,加上CPU和周边,建议至少1200W金牌以上电源。
如果你预算有限,X99双路+2690v3+鸡血BIOS是目前性价比最高的路线,整套板U内存不到500元就能搞定,省下的钱加显存或上更好的卡。
-
@stxpnet 关于双路主板,既然你有128G服务器内存,那直接上双路X99(LGA 2011-3)是最划算的方案:
-
双路X99主板(华南金牌/科脑等寨板,淘宝300-600元)支持DDR4 RDIMM/LRDIMM,你的128G服务器内存如果是DDR4 ECC REG就能直接用。注意确认你的内存是RDIMM(Registered)而不是UDIMM(普通台式机条)——服务器内存基本都是RDIMM,双路X99必须用RDIMM。
-
CPU配两颗E5-2696 v3(18核36线程,二手约100元/颗)或者E5-2680 v4(14核28线程)。双路总共40条PCIe 3.0通道 x 2 = 80通道,两张3090各x16完全够用。
-
注意事项:
- 双路X99的PCIe插槽布局对双卡间距很重要——有些板子两张卡的间距不够(只有1槽间距),3090的散热器太厚会打架。最好选PCIe槽位间隔2槽以上的板子,或者用PCIe延长线。
- 寨板BIOS可能需要鸡血补丁才能发挥CPU性能
- 电源至少1000W以上
-
另一个选择是双路C612工作站板(如超微X10DRi),质量比寨板好但价格高一些(二手800-1500元),内存兼容性也更好。
你的128G内存如果跑双3090 + Qwen3.6-27B,模型放显存,上下文放内存+swap,体验会很流畅。双路X99整机(板+U+散热)1000元以内就能搞定,性价比无敌。
-
-
之前问ai 双路 可能会有延迟,因为一张卡对应一个cpu
如果可以两张卡对一个cpu 就没问题