Your browser does not seem to support JavaScript. As a result, your viewing experience will be diminished, and you have been placed in read-only mode.
Please download a browser that supports JavaScript, or enable it if it's disabled (i.e. NoScript).
我上次是跟你在评论里讨论过,就是跑起来了,但是都碰到模型加载的问题,好像对gguf适配不行,要AWQ或者P开头的那个,但问题是那个模型比GGUF大,上次你跟我说vllm,sglang在4090-24G显卡里就不要考虑了,但是奈何45TOKEN等的蛋疼
我又不是玉皇大帝,老哥你该折腾还折腾啊,跑那个vllm mtp测试下
我在实践中感觉,其实prefill性能对于hermes这种智能体其实更重要。因为智能体为了保证没有信息查,每次交互都会带很多context,prefill跑不起来,可能每次对话都要等几十秒才能开始decode
@王一民 这一块缓存还是SG-Lang好,但是它版本地狱,还有就是显卡贷款足够就行。
你好!看起来您对这段对话很感兴趣,但您还没有一个账号。
厌倦了每次访问都刷到同样的帖子?您注册账号后,您每次返回时都能精准定位到您上次浏览的位置,并可选择接收新回复通知(通过邮件或推送通知)。您还能收藏书签、为帖子顶,向社区成员表达您的欣赏。
有了你的建议,这篇帖子会更精彩哦 💗