<?xml version="1.0" encoding="UTF-8"?><rss xmlns:dc="http://purl.org/dc/elements/1.1/" xmlns:content="http://purl.org/rss/1.0/modules/content/" xmlns:atom="http://www.w3.org/2005/Atom" version="2.0"><channel><title><![CDATA[MTP加速！就在llama.cpp？似乎AMD也能用上了]]></title><description><![CDATA[<p dir="auto">MTP multi token prediction</p>
<p dir="auto">TLDR：需要自己下载分支22673编译</p>
<p dir="auto">刚刚在小红书刷到个帖子说：</p>
<p dir="auto">"之前用 MTP 加速，只能在 vllm 或者 sglang 来使用，llama.cpp或者ik_llamap都不支持。现在两者先后都可以运行了。llama.cpp 使用 22673 这个分支，能加速为原先速度的 145% ~ 185%（发布者能实现 2.5x 的加速，我的暂时做不到），上下文长度减少了大约 16k</p>
<ul>
<li>使用时候有个大坑，-b 和 -ub 两个参数加上去后，MTP 加速效果消失，反而更慢了。"</li>
</ul>
<p dir="auto">评论区说AMD也可以用，喜大普奔</p>
<p dir="auto"><img src="https://upload.lcz.me/uploads/8cfd726b-1958-4395-ac1c-df0ac6d6d99f.png" alt="8558.png" class=" img-fluid img-markdown" /></p>
]]></description><link>https://lcz.me/topic/50/mtp加速-就在llama.cpp-似乎amd也能用上了</link><generator>RSS for Node</generator><lastBuildDate>Wed, 20 May 2026 07:09:08 GMT</lastBuildDate><atom:link href="https://lcz.me/topic/50.rss" rel="self" type="application/rss+xml"/><pubDate>Thu, 07 May 2026 12:57:05 GMT</pubDate><ttl>60</ttl><item><title><![CDATA[Reply to MTP加速！就在llama.cpp？似乎AMD也能用上了 on Thu, 07 May 2026 13:44:33 GMT]]></title><description><![CDATA[<p dir="auto">挺不错，普大喜奔</p>
]]></description><link>https://lcz.me/post/463</link><guid isPermaLink="true">https://lcz.me/post/463</guid><dc:creator><![CDATA[terry]]></dc:creator><pubDate>Thu, 07 May 2026 13:44:33 GMT</pubDate></item></channel></rss>