在vllm和sglang的框架使用中

bily j

我上次是跟你在评论里讨论过，就是跑起来了，但是都碰到模型加载的问题，好像对gguf适配不行，要AWQ或者P开头的那个，但问题是那个模型比GGUF大，上次你跟我说vllm，sglang在4090-24G显卡里就不要考虑了，但是奈何45TOKEN等的蛋疼

terry

我又不是玉皇大帝，老哥你该折腾还折腾啊，跑那个vllm mtp测试下

? 离线

我在实践中感觉，其实prefill性能对于hermes这种智能体其实更重要。因为智能体为了保证没有信息查，每次交互都会带很多context，prefill跑不起来，可能每次对话都要等几十秒才能开始decode

terry

@王一民这一块缓存还是SG-Lang好，但是它版本地狱，还有就是显卡贷款足够就行。

抡锤者