抡锤者

bily j

@九龙杨生希望大神能搞个24显卡的甜点版，我估计显卡主要还是在24G的多，32G及以上的都少，持续关注

bily j

我现在使用llama.cpp，速度已经80-90token/s感觉还可以4090-24G，qwen3.6-27B，已能正常工作使用，但奈何他只能单并发，双开之后其实总体来说体验感不佳，当然我设置的也是排队参数为1，很难开展多窗口聊天

因没有使用过vllm框架，所以想请教下使用过感受的，在同参数下，hermes3-4开会话窗口的时候，vllm能达到一个什么样的体验？如果3-4开窗口每个能达到70-80token/s还能接受，我自己使用的感觉达到40token/s的窗口其实使用体感其实不太好了，感谢指教

SGlang我感觉是不是还不怎么成熟，望而却步，当然没有实战的我没有发言全，只是感觉

bily j

/new 或重开TUI

bily j

都实际测试没有阿， --jinja跟他是一个效果吗？谁的效果好呀？

bily j

@566656661 我实际用MTP的模型感觉，MTP的模型比某些模型要差，容易编程或者什么的时候，绕死路，死循环，应该是模型的问题，因为我用同样的参数，其他模型就没有走死循环的特点

bily j

kvcash是缓存命中，在同一个会话里，kvcash会一直叠加还是kvcash说命中的时候增加下，显存马上会回退

bily j

@566656661 我用qwen3.6-27B模型的，我要去审核版本，带MTP功能的模型你有没有推荐的？或者在huggenface上如何搜索？

bily j

@Tony-Wang 在理

bily j

我是英伟达409024G显卡，在VLLM和SGlang和llama.cpp中，你们觉得差别大吗？我现在用llama.cpp有点熟悉了，基本上80token/s我感觉速度也有，而且gguf的量化模型也多，vllm和SGlang对于gguf的量化好像适配也不好，要装其他的格式的模型好像显存占用也大，并且gguf还有很多无审查模型可以选，我暂时没找到要换框架的理由，请来个实战家，骂醒我，主要还是对其他两套不熟悉

bily j

但是VLLM对gguf支持是不太好的

bily j

@Xiaote vLLM有没有无审核模型？我喜欢无审核的模型，好像现在看来gguf是这种类型模型最多的

bily j

@Xiaote 没开mtp参数，开了这个东西之后速度是飙升，但是上下文只能开60-70K我感觉也做不了啥事情了，你有实测过24G显卡加上mtp之后上下文多少？

bily j

+-----------------------------------------------------------------------------------------+

Processes:
GPU GI CI PID Type Process name GPU Memory
ID ID Usage
0 N/A N/A 1930 C /usr/local/bin/python3 490MiB
0 N/A N/A 268727 C ...oquant/build/bin/llama-server 19338MiB

看这显存，你说我要不要把上下文提高呢？吃到多少显存，kvcash也是正好够，也不会空转？功耗是偶尔448，基本都在380-390，上下文现在120k，就大神经验调整多少合适？

bily j

采用llama.cpp架构，qwen3.6-27B，gguf Q4量化，当然我不知道是用了多几个聊天窗口在进行对话有关还是怎么样？llama.cpp是串行的，但好像处理2-3个并行也是没毛病的，因为我经常这么干，反正就是等时间而已，但是不知道是不是用了并行的原因他处理不过来，还是里面堵塞了，单个执行的时候我倒没仔细观察有没有这样的情况

bily j

我等的烦了后，kill这个PID进程，杀死之后，我没有任务给他，但显卡又重新开始疯狂干活，不知道咋回事，有没有经历过的朋友，麻烦告知下，这种到底算什么情况？

bily j

有的时候hermes agent根本没活，显卡还在那边一直转，我检查了nvidia-smi显存也没爆，我24G显存，显存使用22G多点，这也正常阿，不知道什么原因，另外有的时候也是这样的显存占比，hermes给他任务了，他就是一直分析中，奶奶的不进行下去，好久才进行下去，那我显存还没用完的，不存在使用什么内存或者cpu从而让推理更慢吧？

bily j

@墙内人好像vllm+mtp在24G显卡上上下文是很短的

bily j

@墙内人你的显卡是多少？

bily j

llama.cpp是不是要吃足他的上下文，是不是只要nvidia-smi只要没高于24就好了？AI配置这个上下文窗口一般都给的很保守

bily j

@大魔头感觉没啥卵用

抡锤者

bily j

帖子