跳转至内容
  • 版块
  • 最新
  • 标签
  • 热门
  • 用户
  • 群组
皮肤
  • 浅色
  • Brite
  • Cerulean
  • Cosmo
  • Flatly
  • Journal
  • Litera
  • Lumen
  • Lux
  • Materia
  • Minty
  • Morph
  • Pulse
  • Sandstone
  • Simplex
  • Sketchy
  • Spacelab
  • United
  • Yeti
  • Zephyr
  • 深色
  • Cyborg
  • Darkly
  • Quartz
  • Slate
  • Solar
  • Superhero
  • Vapor

  • 默认(不使用皮肤)
  • 不使用皮肤
折叠
品牌标识

抡锤者

  1. 主页
  2. LLM讨论区
  3. 4 X L20 部署本地模型 ,求大神指点

4 X L20 部署本地模型 ,求大神指点

已定时 已固定 已锁定 已移动 LLM讨论区
nvidial20multi-gpu
17 帖子 4 发布者 157 浏览
  • 从旧到新
  • 从新到旧
  • 最多赞同
回复
  • 在新帖中回复
登录后回复
此主题已被删除。只有拥有主题管理权限的用户可以查看。
  • Foster XuF 离线
    Foster XuF 离线
    Foster Xu
    编写于 最后由 编辑
    #1

    工作室内多了一个L20工作站,4张显卡。
    怎么更好的配置LLM本地模型呢?

    如果要配置Qwen 3.6 27B 应该怎么设定,才能发挥这套硬件的最大能力呢?请各位大侠赐教。

    特别,目前的配置,好像是有非常大的问题的
    [root@localhost ~]# curl http://localhost:8000/v1/models
    {"object":"list","data":[{"id":"/models/Qwen3.6-27B","object":"model","created":1779713843,"owned_by":"vllm","root":"/models/Qwen3.6-27B","parent":null,"max_model_len":16384,"permission":[{"id":"modelperm-85fd0f5b94fee3e2","object":"model_permission","created":1779713843,"allow_create_engine":false,"allow_sampling":true,"allow_logprobs":true,"allow_search_indices":false,"allow_view":true,"allow_fine_tuning":false,"organization":"*","group":null,"is_blocking":false}]}]}

    29cded22-b89b-4db3-a231-91e3d1e5a1af-image.jpeg

    fb02e408-8234-40ad-a12c-f13d6a7c1557-image.jpeg

    1 条回复 最后回复
    1
    • terryT 在线
      terryT 在线
      terry
      编写于 最后由 编辑
      #2

      这个需要高手来解答,超出了我的能力范围,这个组合我建议你就不要VLLM了,死磕SG-Lang,否则糟蹋了这个硬件。

      油管:https://www.youtube.com/@抡锤者

      1 条回复 最后回复
      0
      • Foster XuF 离线
        Foster XuF 离线
        Foster Xu
        编写于 最后由 编辑
        #3

        我感觉目前这个配置好像完全没有设置好,确实有点糟蹋。16K 的上下文 Hermes 都跑不起来 -_-!!

        terryT 1 条回复 最后回复
        0
        • Foster XuF Foster Xu

          我感觉目前这个配置好像完全没有设置好,确实有点糟蹋。16K 的上下文 Hermes 都跑不起来 -_-!!

          terryT 在线
          terryT 在线
          terry
          编写于 最后由 terry 编辑
          #4

          @Foster-Xu 大哥你的配置吊打这个模型,能跑到高潮迭起,不过多卡我没啥经验,不好给你建议,你如果要折腾就别浪费时间搞VLLM了,现在打开Gemini,把你的环境告诉它,让它教你配置。或者你接入hermes,让它帮你配置SG-Lang,指定用docker方式部署,跑起来了来交作业。

          油管:https://www.youtube.com/@抡锤者

          1 条回复 最后回复
          0
          • Foster XuF 离线
            Foster XuF 离线
            Foster Xu
            编写于 最后由 编辑
            #5

            来回折腾了一下,分别使用了hermes的问答,太慢了。让hermes直接干,有点没底。最后用vsCode的claudCode插件直接操作,AI干完了。

            一遍一遍的各种测试,各种搞,还是AI干起来更快

            649c6c96-79e7-425f-aac9-6f770709bda3-image.jpeg

            1 条回复 最后回复
            1
            • Foster XuF 离线
              Foster XuF 离线
              Foster Xu
              编写于 最后由 编辑
              #6

              14652aaf-972a-48c3-b7cc-bfc9e9fa207e-image.jpeg

              terryT 1 条回复 最后回复
              0
              • Foster XuF Foster Xu

                14652aaf-972a-48c3-b7cc-bfc9e9fa207e-image.jpeg

                terryT 在线
                terryT 在线
                terry
                编写于 最后由 编辑
                #7

                @Foster-Xu 大哥你4卡上VLLM干嘛啊,既然让AI干了,让AI上SG-Lang,它有Radix缓存,你问下AI就知道了,这才能发挥战力。

                油管:https://www.youtube.com/@抡锤者

                1 条回复 最后回复
                0
                • Foster XuF 离线
                  Foster XuF 离线
                  Foster Xu
                  编写于 最后由 编辑
                  #8

                  昨天我让AI给我分析了一下,他说vLLM更加合适。。。我就没有动了

                  0a9e4ae4-529e-4c0f-9823-149bbe687863-image.jpeg

                  1 条回复 最后回复
                  0
                  • Foster XuF 离线
                    Foster XuF 离线
                    Foster Xu
                    编写于 最后由 编辑
                    #9

                    我做了一下测试,好像数据很垃圾啊

                    6c791cda-f8e6-4d9c-a704-3d2d22a13064-image.jpeg

                    terryT 1 条回复 最后回复
                    0
                    • Foster XuF Foster Xu

                      我做了一下测试,好像数据很垃圾啊

                      6c791cda-f8e6-4d9c-a704-3d2d22a13064-image.jpeg

                      terryT 在线
                      terryT 在线
                      terry
                      编写于 最后由 terry 编辑
                      #10

                      @Foster-Xu 好吧确实如此,SG-Lang Bug较多,版本地狱。你折腾VLLM也对,你的主板PCIE再差,也不至于这个速度,肯定是配置有问题。但是我们没环境,没办法帮你分析。你要实在搞不定,就用4卡单独跑4个实例。按理说你的卡是数据中心卡,支持NVLINK的,试试看?

                      油管:https://www.youtube.com/@抡锤者

                      1 条回复 最后回复
                      0
                      • Foster XuF 离线
                        Foster XuF 离线
                        Foster Xu
                        编写于 最后由 编辑
                        #11

                        刚才部署了单卡的情况,请参考。

                        INT8 单卡部署成功了!关键数据:

                        模型权重:18.06 GiB(从 54 GB 量化到 18 GB)
                        KV cache 可用:20.78 GiB
                        KV cache 容量:332,662 tokens
                        最大并发:2.54x(128K 请求)
                        enforce-eager 模式(无 CUDA graph)


                        INT8 + CUDA graph: 33.41 tok/s。比 enforce-eager 的 23 tok/s 快了很多,但和 TP=4 BF16 的 34 tok/s 差不多。单卡没快多少,原因是 CUDA graph 部分 capture 失败,回退到了 eager 模式的那些层变慢了。

                        现在清理 INT8,试 INT4 (AWQ)。但 vLLM 的在线 AWQ 量化不太稳定,让我改试 --quantization fp8——FP8 量化更轻量,精度损失极小,且 L20 支持 FP8 计算。


                        1 条回复 最后回复
                        0
                        • Foster XuF 离线
                          Foster XuF 离线
                          Foster Xu
                          编写于 最后由 编辑
                          #12

                          9a5566a0-ed30-438f-8ada-7be445773609-image.jpeg

                          1 条回复 最后回复
                          0
                          • kop wangK 离线
                            kop wangK 离线
                            kop wang
                            编写于 最后由 编辑
                            #13

                            这个只能围观了。没打过这么富裕的仗……

                            说正经的,单卡,8比特量化,33.41 tok/s这个数据从他的显存位宽来看也差不多合理。但是多卡*4就完全不是我能理解的领域了……
                            我更好奇的是prefill性能如何。

                            虚心交流,一起进步

                            1 条回复 最后回复
                            0
                            • Foster XuF 离线
                              Foster XuF 离线
                              Foster Xu
                              编写于 最后由 编辑
                              #14

                              太复杂了,都是GLM 5.1 + ClaudeCode在干,我也是围观的人... -_-!

                              1 条回复 最后回复
                              0
                              • kop wangK 离线
                                kop wangK 离线
                                kop wang
                                编写于 最后由 编辑
                                #15

                                按理说这么大的显存,而且多卡并行,应该是无脑FP16+256K上下文的。但是因为完全没经验,所以就不班门弄斧了。
                                期待楼主的成果。

                                虚心交流,一起进步

                                1 条回复 最后回复
                                0
                                • williamlouisW 在线
                                  williamlouisW 在线
                                  williamlouis
                                  编写于 最后由 williamlouis 编辑
                                  #16

                                  直接生成一套方案:参考即可。
                                  其中夹杂了,AI长期学习我产生的记忆。会按我的习惯做出部署。可以直接忽略。
                                  这套 4×L20(184GB 显存) 的配置,最适合的定位是:本地大模型推理 API 节点,跑 32B–70B 级别 Dense 模型 或 量化版 MoE 模型,对外提供 OpenAI 兼容接口。

                                  个人主页:xlkj.org Telegram https://t.me/xlkjorg

                                  1 条回复 最后回复
                                  1
                                  • terryT terry 固定了该主题
                                  • terryT 在线
                                    terryT 在线
                                    terry
                                    编写于 最后由 编辑
                                    #17

                                    大佬,你的卡算力比4090弱一点,带宽稍差一点,但是也足够了,显存很大,如果没有NVLink,我建议直接跑Qwen3.6 27b q4km量化模型,上LLamal.cpp,每个卡跑一个实例,不要跑什么INT8之类的。Q4量化足够了,推理时会返回BF16计算,这是目前最成熟的生态,KV量化方案你是N卡,建议上Turoquant Turbo3,既然是AI在操作,可以和它说明你的需求,AI不是一直很聪明的,你要坚持自己的意见,否则无限制折腾。记得把MTP加上,一步到位。VLLM的AQW量化模型没有不稳定的说法,我亲测过,完全没问题。你的单卡跑AI视频或者任何其他应用都够,大模型你可以选择2张卡,3张卡,空出一张卡做ComfyUI。我认为这样比较有性价比,调度也自由,不用考虑互联带宽问题。

                                    油管:https://www.youtube.com/@抡锤者

                                    1 条回复 最后回复
                                    0

                                    你好!看起来您对这段对话很感兴趣,但您还没有一个账号。

                                    厌倦了每次访问都刷到同样的帖子?您注册账号后,您每次返回时都能精准定位到您上次浏览的位置,并可选择接收新回复通知(通过邮件或推送通知)。您还能收藏书签、为帖子顶,向社区成员表达您的欣赏。

                                    有了你的建议,这篇帖子会更精彩哦 💗

                                    注册 登录
                                    回复
                                    • 在新帖中回复
                                    登录后回复
                                    • 从旧到新
                                    • 从新到旧
                                    • 最多赞同


                                    • 登录

                                    • 没有帐号? 注册

                                    • 登录或注册以进行搜索。
                                    • 第一个帖子
                                      最后一个帖子
                                    0
                                    • 版块
                                    • 最新
                                    • 标签
                                    • 热门
                                    • 用户
                                    • 群组