MTP multi token prediction
TLDR:需要自己下载分支22673编译
刚刚在小红书刷到个帖子说:
"之前用 MTP 加速,只能在 vllm 或者 sglang 来使用,llama.cpp或者ik_llamap都不支持。现在两者先后都可以运行了。llama.cpp 使用 22673 这个分支,能加速为原先速度的 145% ~ 185%(发布者能实现 2.5x 的加速,我的暂时做不到),上下文长度减少了大约 16k
- 使用时候有个大坑,-b 和 -ub 两个参数加上去后,MTP 加速效果消失,反而更慢了。"
评论区说AMD也可以用,喜大普奔
