我尝试了mtp和tuboquant

Reply to 我尝试了mtp和tuboquant on Mon, 11 May 2026 19:39:43 GMT

williamlouis — Mon, 11 May 2026 19:39:43 GMT

闻闻 4090-24G 的味都是好的。前代神卡。够玩一段了。

饲养员 — Mon, 11 May 2026 17:41:44 GMT

@高乐天
感谢这位仁兄，我也一样是 ai max 395 目前用Ollama 跑 qwen3.6-27b 只有 12T/s
但是用了你介绍的方法，速度几乎翻倍了。以下贴上具体数据给大家参考一下。
再次感谢 @高乐天！

<当前运行环境 & 模型>

<最新测速结果>

阶段	Token 数	耗时	速度
Prompt 处理	45 tokens	421ms	~107 token/s
Token 生成（MTP）	500 tokens	24.8s	~20.2 token/s
总计	545 tokens	~25.2s	~21.6 token/s

高乐天 — Sun, 10 May 2026 15:42:09 GMT

llama.cpp mtp 确实可以用，我的 ai max 395 跑 qwen3.6-27b 24T/s

参考这个社区主题

mtp 分支还没有合并到主分支，目前还存在的问题

terry — Fri, 08 May 2026 22:21:05 GMT

@laihzang619 配置好了VLLM肯定是tokens最高的，比sg-lang还高，我完全没优化也比llama.cpp好一点点。

laihzang619 — Fri, 08 May 2026 15:32:13 GMT

我测试了vllm 3090 24G 开启MTP就爆显存了没法用 llama有45t/s不错了我的vllm只有34t/s

bily j — Fri, 08 May 2026 14:02:00 GMT

@墙内人好像vllm+mtp在24G显卡上上下文是很短的

bily j — Fri, 08 May 2026 13:46:32 GMT

@墙内人你的显卡是多少？

墙内人 — Fri, 08 May 2026 11:25:21 GMT

vllm的mtp是肯定有用的，llama.cpp不知道。

bily j — Fri, 08 May 2026 10:50:27 GMT

llama.cpp是不是要吃足他的上下文，是不是只要nvidia-smi只要没高于24就好了？AI配置这个上下文窗口一般都给的很保守

bily j — Fri, 08 May 2026 10:47:52 GMT

@大魔头感觉没啥卵用

terry — Fri, 08 May 2026 08:03:55 GMT

@bily-j vllm呢，试试看，我最近不会优化llm了，要做一下数字人频道。

大魔头 — Fri, 08 May 2026 07:37:48 GMT

llama.cpp能跑mtp和tuboquant了？我去搜搜，我也想试试