跳转至内容
  • 版块
  • 最新
  • 标签
  • 热门
  • 用户
  • 群组
皮肤
  • 浅色
  • Brite
  • Cerulean
  • Cosmo
  • Flatly
  • Journal
  • Litera
  • Lumen
  • Lux
  • Materia
  • Minty
  • Morph
  • Pulse
  • Sandstone
  • Simplex
  • Sketchy
  • Spacelab
  • United
  • Yeti
  • Zephyr
  • 深色
  • Cyborg
  • Darkly
  • Quartz
  • Slate
  • Solar
  • Superhero
  • Vapor

  • 默认(不使用皮肤)
  • 不使用皮肤
折叠
品牌标识

抡锤者

  1. 主页
  2. AI硬件
  3. 在vllm和sglang的框架使用中

在vllm和sglang的框架使用中

已定时 已固定 已锁定 已移动 AI硬件
4 帖子 3 发布者 77 浏览
  • 从旧到新
  • 从新到旧
  • 最多赞同
回复
  • 在新帖中回复
登录后回复
此主题已被删除。只有拥有主题管理权限的用户可以查看。
  • bily jB 离线
    bily jB 离线
    bily j
    编写于 最后由 编辑
    #1

    我上次是跟你在评论里讨论过,就是跑起来了,但是都碰到模型加载的问题,好像对gguf适配不行,要AWQ或者P开头的那个,但问题是那个模型比GGUF大,上次你跟我说vllm,sglang在4090-24G显卡里就不要考虑了,但是奈何45TOKEN等的蛋疼

    1 条回复 最后回复
    0
    • terryT 在线
      terryT 在线
      terry
      编写于 最后由 编辑
      #2

      我又不是玉皇大帝,老哥你该折腾还折腾啊,跑那个vllm mtp测试下

      1 条回复 最后回复
      0
      • 王一民王 离线
        王一民王 离线
        王一民
        编写于 最后由 编辑
        #3

        我在实践中感觉,其实prefill性能对于hermes这种智能体其实更重要。因为智能体为了保证没有信息查,每次交互都会带很多context,prefill跑不起来,可能每次对话都要等几十秒才能开始decode

        虚心交流,一起进步

        terryT 1 条回复 最后回复
        0
        • 王一民王 王一民

          我在实践中感觉,其实prefill性能对于hermes这种智能体其实更重要。因为智能体为了保证没有信息查,每次交互都会带很多context,prefill跑不起来,可能每次对话都要等几十秒才能开始decode

          terryT 在线
          terryT 在线
          terry
          编写于 最后由 编辑
          #4

          @王一民 这一块缓存还是SG-Lang好,但是它版本地狱,还有就是显卡贷款足够就行。

          1 条回复 最后回复
          0

          你好!看起来您对这段对话很感兴趣,但您还没有一个账号。

          厌倦了每次访问都刷到同样的帖子?您注册账号后,您每次返回时都能精准定位到您上次浏览的位置,并可选择接收新回复通知(通过邮件或推送通知)。您还能收藏书签、为帖子顶,向社区成员表达您的欣赏。

          有了你的建议,这篇帖子会更精彩哦 💗

          注册 登录
          回复
          • 在新帖中回复
          登录后回复
          • 从旧到新
          • 从新到旧
          • 最多赞同


          • 登录

          • 没有帐号? 注册

          • 登录或注册以进行搜索。
          • 第一个帖子
            最后一个帖子
          0
          • 版块
          • 最新
          • 标签
          • 热门
          • 用户
          • 群组