我尝试了mtp和tuboquant

bily j

感觉我linux服务器上的4090-24G显卡好像也没突破限制阿，我是llama.cpp架构，该45token/s还是一样，奶奶的，你测试怎么样老特？36-27B养马香是香就是推理有点慢

大魔头

llama.cpp能跑mtp和tuboquant了？我去搜搜，我也想试试

terry

@bily-j vllm呢，试试看，我最近不会优化llm了，要做一下数字人频道。

bily j

@大魔头感觉没啥卵用

bily j

llama.cpp是不是要吃足他的上下文，是不是只要nvidia-smi只要没高于24就好了？AI配置这个上下文窗口一般都给的很保守

墙内人

vllm的mtp是肯定有用的，llama.cpp不知道。

bily j

@墙内人你的显卡是多少？

bily j

@墙内人好像vllm+mtp在24G显卡上上下文是很短的

laihzang619

我测试了vllm 3090 24G 开启MTP就爆显存了没法用 llama有45t/s不错了我的vllm只有34t/s

terry

@laihzang619 配置好了VLLM肯定是tokens最高的，比sg-lang还高，我完全没优化也比llama.cpp好一点点。

高乐天

llama.cpp mtp 确实可以用，我的 ai max 395 跑 qwen3.6-27b 24T/s

参考这个社区主题

mtp 分支还没有合并到主分支，目前还存在的问题

饲养员

@高乐天
感谢这位仁兄，我也一样是 ai max 395 目前用Ollama 跑 qwen3.6-27b 只有 12T/s
但是用了你介绍的方法，速度几乎翻倍了。以下贴上具体数据给大家参考一下。
再次感谢 @高乐天！

<当前运行环境 & 模型>

<最新测速结果>

阶段	Token 数	耗时	速度
Prompt 处理	45 tokens	421ms	~107 token/s
Token 生成（MTP）	500 tokens	24.8s	~20.2 token/s
总计	545 tokens	~25.2s	~21.6 token/s

williamlouis

闻闻 4090-24G 的味都是好的。前代神卡。够玩一段了。

抡锤者