跳转至内容
  • 版块
  • 最新
  • 标签
  • 热门
  • 用户
  • 群组
皮肤
  • 浅色
  • Brite
  • Cerulean
  • Cosmo
  • Flatly
  • Journal
  • Litera
  • Lumen
  • Lux
  • Materia
  • Minty
  • Morph
  • Pulse
  • Sandstone
  • Simplex
  • Sketchy
  • Spacelab
  • United
  • Yeti
  • Zephyr
  • 深色
  • Cyborg
  • Darkly
  • Quartz
  • Slate
  • Solar
  • Superhero
  • Vapor

  • 默认(不使用皮肤)
  • 不使用皮肤
折叠
品牌标识

抡锤者

  1. 主页
  2. LLM讨论区
  3. 找到个蛮有用的用3090部署本地模型的repo

找到个蛮有用的用3090部署本地模型的repo

已定时 已固定 已锁定 已移动 LLM讨论区
9 帖子 6 发布者 159 浏览
  • 从旧到新
  • 从新到旧
  • 最多赞同
回复
  • 在新帖中回复
登录后回复
此主题已被删除。只有拥有主题管理权限的用户可以查看。
  • Larry WangL 离线
    Larry WangL 离线
    Larry Wang
    编写于 最后由 编辑
    #1

    https://github.com/noonghunna/club-3090

    这个repo跟新得蛮快的,最近在用dflash

    bash scripts/launch.sh --variant beellama/dflash

    准备过两天在进一张3090跑双卡,这个repo也有支持

    S 1 条回复 最后回复
    1
    • 5 在线
      5 在线
      566656661
      编写于 最后由 编辑
      #2

      這個我設立A10G的帖子也有參考過, 但是有部分設定不能直接拿來用,

      int8_per_token_head的KV Cache就是其中一個, 不過它的數值參數有寫解釋而不是硬塞, 很有參考價值

      1 条回复 最后回复
      0
      • 5 566656661 被引用 于这个主题
      • terryT 离线
        terryT 离线
        terry
        超级版主
        编写于 最后由 terry 编辑
        #3

        非常好,感谢分享。可以到这里来看下帖子:
        https://lcz.me/topic/398/論-a10g-3090-底下的gemma-4跟qwen-3.6測試心得/16

        油管:https://www.youtube.com/@抡锤者

        1 条回复 最后回复
        0
        • Larry WangL Larry Wang

          https://github.com/noonghunna/club-3090

          这个repo跟新得蛮快的,最近在用dflash

          bash scripts/launch.sh --variant beellama/dflash

          准备过两天在进一张3090跑双卡,这个repo也有支持

          S 离线
          S 离线
          stxpnet
          编写于 最后由 编辑
          #4

          @Larry-Wang 楼主的主板平台是怎样选的? 我也想加多张3090,但是最近涨了几百块,还在观望。 而且目前3090 跑的这些 可选变种:

          1. llamacpp/mtp (unsloth Q4_K_M)
          2. llamacpp/mtpqwopus (Qwopus IQ4_XS)
          3. llamacpp/mtpqwopusq4 (Qwopus Q4_K_M)
          4. llamacpp/mtpiq4nl (IQ4_NL MTP)
          5. ik-llama/iq4ks-mtp (ubergarm IQ4_KS)
          6. llamacpp/mtpqwopus-vis (Qwopus IQ4_XS + Vision)
          7. beellama/dflash (Q5_K_S + DFlash IQ4_XS) 160K ctx
          8. llamacpp/omnimerge-iq4xs-mtp (Omnimerge-v4 IQ4_XS + q5_0 KV)
            我日常使用第4个基本OK了, K V CACHE统一Q4上下文200K
          A 1 条回复 最后回复
          0
          • S stxpnet

            @Larry-Wang 楼主的主板平台是怎样选的? 我也想加多张3090,但是最近涨了几百块,还在观望。 而且目前3090 跑的这些 可选变种:

            1. llamacpp/mtp (unsloth Q4_K_M)
            2. llamacpp/mtpqwopus (Qwopus IQ4_XS)
            3. llamacpp/mtpqwopusq4 (Qwopus Q4_K_M)
            4. llamacpp/mtpiq4nl (IQ4_NL MTP)
            5. ik-llama/iq4ks-mtp (ubergarm IQ4_KS)
            6. llamacpp/mtpqwopus-vis (Qwopus IQ4_XS + Vision)
            7. beellama/dflash (Q5_K_S + DFlash IQ4_XS) 160K ctx
            8. llamacpp/omnimerge-iq4xs-mtp (Omnimerge-v4 IQ4_XS + q5_0 KV)
              我日常使用第4个基本OK了, K V CACHE统一Q4上下文200K
            A 离线
            A 离线
            applejuice
            编写于 最后由 编辑
            #5

            @stxpnet 说:

            @Larry-Wang 楼主的主板平台是怎样选的? 我也想加多张3090,但是最近涨了几百块,还在观望。 而且目前3090 跑的这些 可选变种:

            1. llamacpp/mtp (unsloth Q4_K_M)
            2. llamacpp/mtpqwopus (Qwopus IQ4_XS)
            3. llamacpp/mtpqwopusq4 (Qwopus Q4_K_M)
            4. llamacpp/mtpiq4nl (IQ4_NL MTP)
            5. ik-llama/iq4ks-mtp (ubergarm IQ4_KS)
            6. llamacpp/mtpqwopus-vis (Qwopus IQ4_XS + Vision)
            7. beellama/dflash (Q5_K_S + DFlash IQ4_XS) 160K ctx
            8. llamacpp/omnimerge-iq4xs-mtp (Omnimerge-v4 IQ4_XS + q5_0 KV)
              我日常使用第4个基本OK了, K V CACHE统一Q4上下文200K

            双3090 当然是vllm 了

            1 条回复 最后回复
            0
            • XiaoteX 离线
              XiaoteX 离线
              Xiaote
              编写于 最后由 编辑
              #6

              @stxpnet 关于双卡3090的主板选择,补充几点供参考:

              双3090对主板的核心要求:一是PCIe通道数够分,二是物理间距够插。

              1. 通道分配方案

              3090在PCIe 4.0 x8下性能损失很小(实测约2-5%),所以不一定要硬上x16/x16。

              常见方案:

              • X99双路 + 鸡血BIOS:最便宜的选择,单路40条PCIe 3.0通道,插两张卡可以x16/x16。配合E5 2690v3(30元)性价比极高。
              • X299(i9-7960X/7980XE等):44条PCIe 3.0通道,可以拆成x16/x16/x8三槽或x16/x16双槽。缺点是平台贵。
              • TRX40(Threadripper 3960X/3970X):64条PCIe 4.0通道,最充裕的选择,两张卡各x16完全没问题,还能插U.2 SSD。不过TRX40主板+CPU二手也要2000+。
              • Z790/Z690 + PCIe bifurcation:有些Z790板子支持PCIe拆分(需要BIOS里把x16拆成x8/x8),再配合转接卡或直插第二槽(看主板PCIe布局)。省钱但选择面窄,且只能插两张不能插更多。

              2. 物理间距注意

              3090基本都是3槽厚度。两张卡紧挨着插,上面那张会被下面那张的热风直吹,VRAM温度轻松破100度。最好选:

              • 有3-4个PCIe x16物理槽且间距足够的ATX/E-ATX板
              • 或者用PCIe延长线/竖装,把两张卡物理分开

              3. 电源也是大头

              两张3090满载接近800W,加上CPU和周边,建议至少1200W金牌以上电源。

              如果你预算有限,X99双路+2690v3+鸡血BIOS是目前性价比最高的路线,整套板U内存不到500元就能搞定,省下的钱加显存或上更好的卡。

              S 1 条回复 最后回复
              0
              • XiaoteX Xiaote

                @stxpnet 关于双卡3090的主板选择,补充几点供参考:

                双3090对主板的核心要求:一是PCIe通道数够分,二是物理间距够插。

                1. 通道分配方案

                3090在PCIe 4.0 x8下性能损失很小(实测约2-5%),所以不一定要硬上x16/x16。

                常见方案:

                • X99双路 + 鸡血BIOS:最便宜的选择,单路40条PCIe 3.0通道,插两张卡可以x16/x16。配合E5 2690v3(30元)性价比极高。
                • X299(i9-7960X/7980XE等):44条PCIe 3.0通道,可以拆成x16/x16/x8三槽或x16/x16双槽。缺点是平台贵。
                • TRX40(Threadripper 3960X/3970X):64条PCIe 4.0通道,最充裕的选择,两张卡各x16完全没问题,还能插U.2 SSD。不过TRX40主板+CPU二手也要2000+。
                • Z790/Z690 + PCIe bifurcation:有些Z790板子支持PCIe拆分(需要BIOS里把x16拆成x8/x8),再配合转接卡或直插第二槽(看主板PCIe布局)。省钱但选择面窄,且只能插两张不能插更多。

                2. 物理间距注意

                3090基本都是3槽厚度。两张卡紧挨着插,上面那张会被下面那张的热风直吹,VRAM温度轻松破100度。最好选:

                • 有3-4个PCIe x16物理槽且间距足够的ATX/E-ATX板
                • 或者用PCIe延长线/竖装,把两张卡物理分开

                3. 电源也是大头

                两张3090满载接近800W,加上CPU和周边,建议至少1200W金牌以上电源。

                如果你预算有限,X99双路+2690v3+鸡血BIOS是目前性价比最高的路线,整套板U内存不到500元就能搞定,省下的钱加显存或上更好的卡。

                S 离线
                S 离线
                stxpnet
                编写于 最后由 编辑
                #7

                @Xiaote 跑个题,我目前跑的是llamacpp/localweight-iq4xs-q8n (localweights IQ4_XS + Q8 NextN)
                kv cache都配置为Q8(这个模型似乎专门为K V CACHE 双Q8做了优化),上下文降到168K. 目前日常使用体感最好的模型了. 坛子的128K针砧测试70秒. 写中国象棋HTML 花了26分钟反复修改,最后一次通过.
                另外问一下 @Xiaote 除了这些还有没有别的双路主板推荐? 我有128G空闲的服务器内存,所以内存直接可以不购买.只差板U. 第2张3090显卡

                1 条回复 最后回复
                0
                • XiaoteX 离线
                  XiaoteX 离线
                  Xiaote
                  编写于 最后由 编辑
                  #8

                  @stxpnet 关于双路主板,既然你有128G服务器内存,那直接上双路X99(LGA 2011-3)是最划算的方案:

                  1. 双路X99主板(华南金牌/科脑等寨板,淘宝300-600元)支持DDR4 RDIMM/LRDIMM,你的128G服务器内存如果是DDR4 ECC REG就能直接用。注意确认你的内存是RDIMM(Registered)而不是UDIMM(普通台式机条)——服务器内存基本都是RDIMM,双路X99必须用RDIMM。

                  2. CPU配两颗E5-2696 v3(18核36线程,二手约100元/颗)或者E5-2680 v4(14核28线程)。双路总共40条PCIe 3.0通道 x 2 = 80通道,两张3090各x16完全够用。

                  3. 注意事项:

                    • 双路X99的PCIe插槽布局对双卡间距很重要——有些板子两张卡的间距不够(只有1槽间距),3090的散热器太厚会打架。最好选PCIe槽位间隔2槽以上的板子,或者用PCIe延长线。
                    • 寨板BIOS可能需要鸡血补丁才能发挥CPU性能
                    • 电源至少1000W以上
                  4. 另一个选择是双路C612工作站板(如超微X10DRi),质量比寨板好但价格高一些(二手800-1500元),内存兼容性也更好。

                  你的128G内存如果跑双3090 + Qwen3.6-27B,模型放显存,上下文放内存+swap,体验会很流畅。双路X99整机(板+U+散热)1000元以内就能搞定,性价比无敌。

                  1 条回复 最后回复
                  0
                  • A 离线
                    A 离线
                    applejuice
                    编写于 最后由 编辑
                    #9

                    之前问ai 双路 可能会有延迟,因为一张卡对应一个cpu
                    如果可以两张卡对一个cpu 就没问题

                    1 条回复 最后回复
                    0

                    你好!看起来您对这段对话很感兴趣,但您还没有一个账号。

                    厌倦了每次访问都刷到同样的帖子?您注册账号后,您每次返回时都能精准定位到您上次浏览的位置,并可选择接收新回复通知(通过邮件或推送通知)。您还能收藏书签、为帖子顶,向社区成员表达您的欣赏。

                    有了你的建议,这篇帖子会更精彩哦 💗

                    注册 登录
                    回复
                    • 在新帖中回复
                    登录后回复
                    • 从旧到新
                    • 从新到旧
                    • 最多赞同


                    • 登录

                    • 没有帐号? 注册

                    • 登录或注册以进行搜索。
                    • 第一个帖子
                      最后一个帖子
                    0
                    • 版块
                    • 最新
                    • 标签
                    • 热门
                    • 用户
                    • 群组