<?xml version="1.0" encoding="UTF-8"?><rss xmlns:dc="http://purl.org/dc/elements/1.1/" xmlns:content="http://purl.org/rss/1.0/modules/content/" xmlns:atom="http://www.w3.org/2005/Atom" version="2.0"><channel><title><![CDATA[2080Ti 22G魔改版+llama.cpp pr-22673开启MTP Chat场景TPS提升20%左右]]></title><description><![CDATA[<p dir="auto">今天看到一篇微信公众号文章： <a href="https://mp.weixin.qq.com/s/KQo-UBEOvtRMW5dK1bz6PQ" rel="nofollow ugc">https://mp.weixin.qq.com/s/KQo-UBEOvtRMW5dK1bz6PQ</a><br />
按照文章内容搭建了测试环境：</p>
<pre><code>git clone https://github.com/ggml-org/llama.cpp llama.cpp-mtp
cd llama.cpp-mtp
git fetch origin pull/22673/head:pr-22673
git checkout pr-22673
mkdir build &amp;&amp; cd build
cmake .. \
  -DCMAKE_BUILD_TYPE=Release \
  -DGGML_CUDA=ON \
  -DLLAMA_CURL=ON \
  -DGGML_NATIVE=ON \
  -DGGML_CUDA_GRAPHS=ON \
  -DGGML_CUDA_F16=ON \
  -DGGML_CUDA_FA_ALL_QUANTS=ON \
  -DCMAKE_CUDA_ARCHITECTURES=75   # 按需调整，89=Ada/4090，86=Ampere/3090
cmake --build . --config Release \
  --target llama-server llama-bench --parallel
</code></pre>
<p dir="auto">下载了unsloth的开启MTP模型： <a href="https://huggingface.co/unsloth/Qwen3.6-27B-MTP-GGUF/resolve/main/Qwen3.6-27B-Q4_K_M.gguf" rel="nofollow ugc">https://huggingface.co/unsloth/Qwen3.6-27B-MTP-GGUF/resolve/main/Qwen3.6-27B-Q4_K_M.gguf</a> -O ~/models/Qwen3.6-27B-MTP-Q4_K_M.gguf<br />
不加载vision的情况下， 启动：</p>
<pre><code>~/llama.cpp-mtp/build/bin/llama-server -m ~/models/Qwen3.6-27B-MTP-Q4_K_M.gguf \
--ctx-size 131072 \
--n-gpu-layers 999 \
-fa on \
--port 8000 \
--host 0.0.0.0 \
--cache-type-k q4_0 \
--cache-type-v q4_0 \
--no-mmap \
--no-warmup \
--reasoning off \
--jinja \
--parallel 1 \
--spec-type mtp \
--spec-draft-n-max 2 \
--chat-template-kwargs "{\"enable_thinking\": false, \"preserve_thinking\": false}"
</code></pre>
<p dir="auto">128k上下文，显存占用20.5G，简单用cherrybox提了几个问题，prompt大概2k上下。 TPS从之前的27提升到了33左右。整体感觉快了20%。 coding场景没有测试，理论上应该提升更多。<br />
另外，对于--spec-draft-n-max 的值，测了1,2,3。发现2时收益最大，能跑到33~34； 1和3都在30上下。 总体都比裸跑有提升。<br />
最后挂上了vision，发了一张1M左右的图片测试了一下，TPS在28左右，显存占用21.75G。 我准备测几天，看看会不会OOM。<br />
另外还有一个发现，开了MTP以后，显卡的utility下来了。之前基本上都在95%以上，功率一直顶着上限250W。开了MTP，tps上升的同时，utility基本上都在80%左右，功率也基本上不会满载了。估计是降低了开销，输出也降低，但是被MTP补偿了。</p>
<p dir="auto">总体来讲，2080Ti这个卡应该没什么压榨空间了，跑Hermes太慢，适合跑好skill，布置好cron让他后台自己干活，不适合前台交互。<br />
<img src="https://upload.lcz.me/uploads/370b31dd-cb60-40bb-a4c3-721dde0b668a.jpeg" alt="d7d8fd62-8a01-48ef-8bce-7a9b108e255b-image.jpeg" class=" img-fluid img-markdown" /></p>
]]></description><link>https://lcz.me/topic/121/2080ti-22g魔改版-llama.cpp-pr-22673开启mtp-chat场景tps提升20-左右</link><generator>RSS for Node</generator><lastBuildDate>Wed, 20 May 2026 06:08:20 GMT</lastBuildDate><atom:link href="https://lcz.me/topic/121.rss" rel="self" type="application/rss+xml"/><pubDate>Wed, 13 May 2026 05:13:46 GMT</pubDate><ttl>60</ttl><item><title><![CDATA[Reply to 2080Ti 22G魔改版+llama.cpp pr-22673开启MTP Chat场景TPS提升20%左右 on Tue, 19 May 2026 05:22:03 GMT]]></title><description><![CDATA[<p dir="auto">很有参考意义，我最近打算上车2080ti22试试<img src="https://lcz.me/assets/plugins/nodebb-plugin-emoji/emoji/android/1f622.png?v=d348ca29232" class="not-responsive emoji emoji-android emoji--cry" style="height:23px;width:auto;vertical-align:middle" title="😢" alt="😢" /></p>
]]></description><link>https://lcz.me/post/2534</link><guid isPermaLink="true">https://lcz.me/post/2534</guid><dc:creator><![CDATA[ezios]]></dc:creator><pubDate>Tue, 19 May 2026 05:22:03 GMT</pubDate></item><item><title><![CDATA[Reply to 2080Ti 22G魔改版+llama.cpp pr-22673开启MTP Chat场景TPS提升20%左右 on Wed, 13 May 2026 18:09:04 GMT]]></title><description><![CDATA[<p dir="auto"><a class="plugin-mentions-user plugin-mentions-a" href="/user/terry" aria-label="Profile: terry">@<bdi>terry</bdi></a> 没有。显卡核心问题。这玩意上不了天的。</p>
]]></description><link>https://lcz.me/post/1471</link><guid isPermaLink="true">https://lcz.me/post/1471</guid><dc:creator><![CDATA[williamlouis]]></dc:creator><pubDate>Wed, 13 May 2026 18:09:04 GMT</pubDate></item><item><title><![CDATA[Reply to 2080Ti 22G魔改版+llama.cpp pr-22673开启MTP Chat场景TPS提升20%左右 on Wed, 13 May 2026 08:09:54 GMT]]></title><description><![CDATA[<p dir="auto">精品，2080Ti还挺不错的，我被打脸了啊。</p>
]]></description><link>https://lcz.me/post/1372</link><guid isPermaLink="true">https://lcz.me/post/1372</guid><dc:creator><![CDATA[terry]]></dc:creator><pubDate>Wed, 13 May 2026 08:09:54 GMT</pubDate></item><item><title><![CDATA[Reply to 2080Ti 22G魔改版+llama.cpp pr-22673开启MTP Chat场景TPS提升20%左右 on Wed, 13 May 2026 05:45:36 GMT]]></title><description><![CDATA[<p dir="auto">入门耍耍呗。没有生产力。锤锤的核心是有项目再起飞。你现在就是熟悉这个折腾的流程就行。有项目了再搞硬件。</p>
]]></description><link>https://lcz.me/post/1321</link><guid isPermaLink="true">https://lcz.me/post/1321</guid><dc:creator><![CDATA[williamlouis]]></dc:creator><pubDate>Wed, 13 May 2026 05:45:36 GMT</pubDate></item><item><title><![CDATA[Reply to 2080Ti 22G魔改版+llama.cpp pr-22673开启MTP Chat场景TPS提升20%左右 on Wed, 13 May 2026 05:41:09 GMT]]></title><description><![CDATA[<p dir="auto"><a class="plugin-mentions-user plugin-mentions-a" href="/user/fred" aria-label="Profile: Fred">@<bdi>Fred</bdi></a> 我平时不加MTP是，utility基本都95%以上了， MTP再消耗一部分算力，在20这样的算力基础上，估计也就提升到这意思了。适合入门或者应用频率不高的chat场景。</p>
]]></description><link>https://lcz.me/post/1318</link><guid isPermaLink="true">https://lcz.me/post/1318</guid><dc:creator><![CDATA[davidwei0826]]></dc:creator><pubDate>Wed, 13 May 2026 05:41:09 GMT</pubDate></item><item><title><![CDATA[Reply to 2080Ti 22G魔改版+llama.cpp pr-22673开启MTP Chat场景TPS提升20%左右 on Wed, 13 May 2026 05:38:46 GMT]]></title><description><![CDATA[<p dir="auto">精品。终于看到精华了。20系列 主驱动 太老了。你能搞出效果很难得。</p>
]]></description><link>https://lcz.me/post/1316</link><guid isPermaLink="true">https://lcz.me/post/1316</guid><dc:creator><![CDATA[williamlouis]]></dc:creator><pubDate>Wed, 13 May 2026 05:38:46 GMT</pubDate></item><item><title><![CDATA[Reply to 2080Ti 22G魔改版+llama.cpp pr-22673开启MTP Chat场景TPS提升20%左右 on Wed, 13 May 2026 05:38:00 GMT]]></title><description><![CDATA[<p dir="auto">20%提升有点少啊，llama.cpp开MTP一般能提升2~2.5x的TG，不过那是在30，40系列上测的，可能确实20系列卡的极限到了。</p>
]]></description><link>https://lcz.me/post/1315</link><guid isPermaLink="true">https://lcz.me/post/1315</guid><dc:creator><![CDATA[Fred]]></dc:creator><pubDate>Wed, 13 May 2026 05:38:00 GMT</pubDate></item></channel></rss>