跳转至内容
  • 版块
  • 最新
  • 标签
  • 热门
  • 用户
  • 群组
皮肤
  • 浅色
  • Brite
  • Cerulean
  • Cosmo
  • Flatly
  • Journal
  • Litera
  • Lumen
  • Lux
  • Materia
  • Minty
  • Morph
  • Pulse
  • Sandstone
  • Simplex
  • Sketchy
  • Spacelab
  • United
  • Yeti
  • Zephyr
  • 深色
  • Cyborg
  • Darkly
  • Quartz
  • Slate
  • Solar
  • Superhero
  • Vapor

  • 默认(不使用皮肤)
  • 不使用皮肤
折叠
品牌标识

抡锤者

  1. 主页
  2. LLM讨论区
  3. VLLM和SGlang和llama.cpp选择

VLLM和SGlang和llama.cpp选择

已定时 已固定 已锁定 已移动 LLM讨论区
9 帖子 8 发布者 134 浏览
  • 从旧到新
  • 从新到旧
  • 最多赞同
回复
  • 在新帖中回复
登录后回复
此主题已被删除。只有拥有主题管理权限的用户可以查看。
  • bily jB 离线
    bily jB 离线
    bily j
    编写于 最后由 编辑
    #1

    我是英伟达409024G显卡,在VLLM和SGlang和llama.cpp中,你们觉得差别大吗?我现在用llama.cpp有点熟悉了,基本上80token/s我感觉速度也有,而且gguf的量化模型也多,vllm和SGlang对于gguf的量化好像适配也不好,要装其他的格式的模型好像显存占用也大,并且gguf还有很多无审查模型可以选,我暂时没找到要换框架的理由,请来个实战家,骂醒我,主要还是对其他两套不熟悉

    1 条回复 最后回复
    0
    • Tony WangT 在线
      Tony WangT 在线
      Tony Wang
      编写于 最后由 编辑
      #2
      • 你要是为了自己用, 能用就不用再折腾了

      • 你要是想成为这方面的专家, 就一定要折腾

      • 你要是乐于折腾, 那也不错, 不过从90分到95分的难度, 远远高于 60分到90分的难度, 性价比不高.

      • 重要的是尽快产生生产力, 尽快帮助自己解决问题.

      bily jB 1 条回复 最后回复
      0
      • XiaoteX 离线
        XiaoteX 离线
        Xiaote
        编写于 最后由 编辑
        #3

        @bily-j Tony Wang说得对,能用就不用折腾。不过既然你问了技术对比,我展开说说:

        llama.cpp + GGUF 的核心优势:

        • 生态最成熟,模型选择最多(HuggingFace上GGUF格式最全)
        • 量化精度可控,Q2到Q8随便选
        • 内存效率高,4090 24G跑Q4_K_M的27B模型能到80t/s很合理
        • 加载快,适合频繁换模型
        • 缺点是batch推理效率不如vLLM,高并发场景吃亏

        vLLM的优势:

        • 做服务端/API很好,PagedAttention显存利用率高,多并发时吞吐量碾压llama.cpp
        • Continuous batching处理多请求时效率极高
        • 但vLLM对GGUF支持确实很烂(llama.cpp backend实验性质),需要用AWQ/GPTQ/Marlin等格式
        • 单用户日常对话,vLLM优势体现不出来

        SGlang:

        • 介于两者之间,RadixAttention对前缀共享场景优化好(多轮对话、system prompt长的场景)
        • 对MTP(投机采样)支持比vLLM好,但生态不如vLLM成熟
        • 同样需要非GGUF格式

        所以你现在的情况:4090单卡自己用,llama.cpp完全够用,80t/s很好了。你换vLLM要重新下载AWQ模型(至少多占2-3G显存),还得配置API server,单用户场景提升不大。继续用llama.cpp就对了。什么时候需要同时服务多个人或者做API网关,再考虑vLLM。

        1 条回复 最后回复
        0
        • terryT 离线
          terryT 离线
          terry
          编写于 最后由 编辑
          #4

          能用就不要折腾,抓紧干活,没应用场景折腾不出什么意义来。

          油管:https://www.youtube.com/@抡锤者

          1 条回复 最后回复
          1
          • CS6C 离线
            CS6C 离线
            CS6
            编写于 最后由 编辑
            #5

            會糾結就跑虛擬化,直接拿人家大神寫好的容器跑起來幾乎不用設定,想切換環境就關掉重開就好
            因為會問這個問題,就代表你感覺不出來或者不同生態的差異對你工作還沒影響,
            更有可能的是你想要用的模型沒提供你想要的格式(?
            vllm和SGlang 對我來說的重點會是在多卡擴展並行處理能力,但我是用來當作個人實驗來反推工作中的情境
            但如果你只是拿來當個人的AI助理,我覺得沒有差別.....
            你頂多一次跑四到五個對話而已

            5 1 条回复 最后回复
            0
            • Tony WangT Tony Wang
              • 你要是为了自己用, 能用就不用再折腾了

              • 你要是想成为这方面的专家, 就一定要折腾

              • 你要是乐于折腾, 那也不错, 不过从90分到95分的难度, 远远高于 60分到90分的难度, 性价比不高.

              • 重要的是尽快产生生产力, 尽快帮助自己解决问题.

              bily jB 离线
              bily jB 离线
              bily j
              编写于 最后由 编辑
              #6

              @Tony-Wang 在理

              1 条回复 最后回复
              0
              • CS6C CS6

                會糾結就跑虛擬化,直接拿人家大神寫好的容器跑起來幾乎不用設定,想切換環境就關掉重開就好
                因為會問這個問題,就代表你感覺不出來或者不同生態的差異對你工作還沒影響,
                更有可能的是你想要用的模型沒提供你想要的格式(?
                vllm和SGlang 對我來說的重點會是在多卡擴展並行處理能力,但我是用來當作個人實驗來反推工作中的情境
                但如果你只是拿來當個人的AI助理,我覺得沒有差別.....
                你頂多一次跑四到五個對話而已

                5 在线
                5 在线
                566656661
                编写于 最后由 566656661 编辑
                #7

                @CS6

                個人覺得, 與其折騰哪個引擎比較好, 倒不如理解它們背後的運作原理跟優勢更好, 尤其是Paged Attention (vLLM) 跟 Radix Attention (SGLang)

                Paged Attention能消除記憶體浪費跟支援平行採樣
                Radix Attention的前綴緩存(Prefix Caching)做得比vLLM好, 首字延遲(TTFT)更低

                引用一下一個大神寫的文

                13c94390-0998-4333-8019-7e4a22e8541f-image.jpeg

                至於家用的話, 個人覺得SGLang跟vLLM並不會有太大分別, 因為真的需要壓榨全部性能的情況太少了 (不是沒有, 除非你喜歡折騰), 付出的時間成本跟精力不成正比

                1 条回复 最后回复
                1
                • kos orK 离线
                  kos orK 离线
                  kos or
                  编写于 最后由 编辑
                  #8

                  我曾經先嘗試用SGLang跑模型,但受限於硬體架構 有些模型無法跑成功, 目前先用llama.cpp 各種模型跑得很舒服, 等到生產力階段再回來使用SGLang整一個穩定版本的

                  1 条回复 最后回复
                  0
                  • B 离线
                    B 离线
                    blackjack
                    编写于 最后由 编辑
                    #9

                    24g纠结啥啊,就老老实实llama.cpp单槽用

                    1 条回复 最后回复
                    0

                    你好!看起来您对这段对话很感兴趣,但您还没有一个账号。

                    厌倦了每次访问都刷到同样的帖子?您注册账号后,您每次返回时都能精准定位到您上次浏览的位置,并可选择接收新回复通知(通过邮件或推送通知)。您还能收藏书签、为帖子顶,向社区成员表达您的欣赏。

                    有了你的建议,这篇帖子会更精彩哦 💗

                    注册 登录
                    回复
                    • 在新帖中回复
                    登录后回复
                    • 从旧到新
                    • 从新到旧
                    • 最多赞同


                    • 登录

                    • 没有帐号? 注册

                    • 登录或注册以进行搜索。
                    • 第一个帖子
                      最后一个帖子
                    0
                    • 版块
                    • 最新
                    • 标签
                    • 热门
                    • 用户
                    • 群组