MTP加速！就在llama.cpp？似乎AMD也能用上了

jenaflex

MTP multi token prediction

TLDR：需要自己下载分支22673编译

刚刚在小红书刷到个帖子说：

"之前用 MTP 加速，只能在 vllm 或者 sglang 来使用，llama.cpp或者ik_llamap都不支持。现在两者先后都可以运行了。llama.cpp 使用 22673 这个分支，能加速为原先速度的 145% ~ 185%（发布者能实现 2.5x 的加速，我的暂时做不到），上下文长度减少了大约 16k

使用时候有个大坑，-b 和 -ub 两个参数加上去后，MTP 加速效果消失，反而更慢了。"

评论区说AMD也可以用，喜大普奔

terry

挺不错，普大喜奔

抡锤者

MTP加速！就在llama.cpp？似乎AMD也能用上了