<?xml version="1.0" encoding="UTF-8"?><rss xmlns:dc="http://purl.org/dc/elements/1.1/" xmlns:content="http://purl.org/rss/1.0/modules/content/" xmlns:atom="http://www.w3.org/2005/Atom" version="2.0"><channel><title><![CDATA[r9700 32G速度总算达标了，27B MTP,能上50t&#x2F;s]]></title><description><![CDATA[<p dir="auto">Q4_K_M · 1500 tokens 测试结果</p>
<pre><code>| 指标        | 值                                 |
|-------------|------------------------------------|
| 生成速度    | 53.5 tok/s 🚀                      |
| 总耗时      | 28.0s                              |
| MTP 接受率  | 60.8%（1592 draft / 968 accepted） |
| Prompt 处理 | 115.4 tok/s（prompt cache 命中）   |
</code></pre>
<p dir="auto"><img src="https://upload.lcz.me/uploads/fd6e06e9-bd3d-4073-ba66-96140a5df5ec.png" alt="2026-06-03 06-47-09屏幕截图.png" class=" img-fluid img-markdown" /></p>
<p dir="auto">draft=3</p>
]]></description><link>https://lcz.me/topic/399/r9700-32g速度总算达标了-27b-mtp-能上50t-s</link><generator>RSS for Node</generator><lastBuildDate>Sat, 13 Jun 2026 23:44:12 GMT</lastBuildDate><atom:link href="https://lcz.me/topic/399.rss" rel="self" type="application/rss+xml"/><pubDate>Tue, 02 Jun 2026 22:51:51 GMT</pubDate><ttl>60</ttl><item><title><![CDATA[Reply to r9700 32G速度总算达标了，27B MTP,能上50t&#x2F;s on Fri, 05 Jun 2026 17:10:25 GMT]]></title><description><![CDATA[<p dir="auto">老兄, 能分享下參數嗎?</p>
]]></description><link>https://lcz.me/post/5240</link><guid isPermaLink="true">https://lcz.me/post/5240</guid><dc:creator><![CDATA[spur6897]]></dc:creator><pubDate>Fri, 05 Jun 2026 17:10:25 GMT</pubDate></item><item><title><![CDATA[Reply to r9700 32G速度总算达标了，27B MTP,能上50t&#x2F;s on Wed, 03 Jun 2026 02:18:43 GMT]]></title><description><![CDATA[<p dir="auto"><a class="plugin-mentions-user plugin-mentions-a" href="/user/iocat" aria-label="Profile: iocat">@<bdi>iocat</bdi></a></p>
<p dir="auto">有可能, 估计是提示词很短, 又加上了 thinking, 导致有效首字很慢, 看起来像是prefill 很慢的样子.</p>
]]></description><link>https://lcz.me/post/4727</link><guid isPermaLink="true">https://lcz.me/post/4727</guid><dc:creator><![CDATA[Tony Wang]]></dc:creator><pubDate>Wed, 03 Jun 2026 02:18:43 GMT</pubDate></item><item><title><![CDATA[Reply to r9700 32G速度总算达标了，27B MTP,能上50t&#x2F;s on Wed, 03 Jun 2026 02:12:54 GMT]]></title><description><![CDATA[<p dir="auto"><a class="plugin-mentions-user plugin-mentions-a" href="/user/tony-wang" aria-label="Profile: Tony-Wang">@<bdi>Tony-Wang</bdi></a> 这个应该是提示词很短导致的</p>
]]></description><link>https://lcz.me/post/4726</link><guid isPermaLink="true">https://lcz.me/post/4726</guid><dc:creator><![CDATA[iocat]]></dc:creator><pubDate>Wed, 03 Jun 2026 02:12:54 GMT</pubDate></item><item><title><![CDATA[Reply to r9700 32G速度总算达标了，27B MTP,能上50t&#x2F;s on Wed, 03 Jun 2026 01:38:49 GMT]]></title><description><![CDATA[<p dir="auto">我觉得你R9700的prefill 肯定是没问题的, 只是hermes给你的答案不对</p>
]]></description><link>https://lcz.me/post/4722</link><guid isPermaLink="true">https://lcz.me/post/4722</guid><dc:creator><![CDATA[Tony Wang]]></dc:creator><pubDate>Wed, 03 Jun 2026 01:38:49 GMT</pubDate></item><item><title><![CDATA[Reply to r9700 32G速度总算达标了，27B MTP,能上50t&#x2F;s on Wed, 03 Jun 2026 00:15:18 GMT]]></title><description><![CDATA[<p dir="auto">好的，谢谢。不同框架都试了，llama,ollama,vllm,lm stduio,然后35b,32b,30b,27b ，然后带MTP,然后q4、q5、q6, 说试了20多个模型感觉说少了，哈哈。一直没时间找测试的软件。自己瞎测一个，感觉不好用的就pass了，也没有调过参数。后面才知道参数对速度影响也挺大的。现在基本确定27b mtp版本的，推理能力和响应速度都不错。</p>
]]></description><link>https://lcz.me/post/4712</link><guid isPermaLink="true">https://lcz.me/post/4712</guid><dc:creator><![CDATA[sospda]]></dc:creator><pubDate>Wed, 03 Jun 2026 00:15:18 GMT</pubDate></item><item><title><![CDATA[Reply to r9700 32G速度总算达标了，27B MTP,能上50t&#x2F;s on Tue, 02 Jun 2026 23:58:38 GMT]]></title><description><![CDATA[<p dir="auto">我之前用的是 llm_context_benchmarks , 支持多种框架. 测试时间主要看上下文的长度, 主要测试 64k, 128k就行. 要开 KV Q8.  测试时间并不长, 几分钟就能跑完.</p>
<p dir="auto">这个工具star不多, 是ChatGPT推荐给我的, 你也可以找找有更多star 的llm bench工具, 还是有不少的.</p>
]]></description><link>https://lcz.me/post/4710</link><guid isPermaLink="true">https://lcz.me/post/4710</guid><dc:creator><![CDATA[Tony Wang]]></dc:creator><pubDate>Tue, 02 Jun 2026 23:58:38 GMT</pubDate></item><item><title><![CDATA[Reply to r9700 32G速度总算达标了，27B MTP,能上50t&#x2F;s on Tue, 02 Jun 2026 23:43:31 GMT]]></title><description><![CDATA[<p dir="auto">llama不知道有什么标准测试， 都是自己随便跑一下简单测试。如果有标准测试只要时间不是太长，都可以测一下，有个对比。 模型前后换了20多个了，每个都跑很长时间的测试，时间也不允许。</p>
]]></description><link>https://lcz.me/post/4708</link><guid isPermaLink="true">https://lcz.me/post/4708</guid><dc:creator><![CDATA[sospda]]></dc:creator><pubDate>Tue, 02 Jun 2026 23:43:31 GMT</pubDate></item><item><title><![CDATA[Reply to r9700 32G速度总算达标了，27B MTP,能上50t&#x2F;s on Tue, 02 Jun 2026 23:10:56 GMT]]></title><description><![CDATA[<ul>
<li>Prompt 处理 | 115.4 tok/s（prompt cache 命中）   -- 这个速度似乎很低.</li>
</ul>
<p dir="auto">我没有让hermes自己测试过, 我都是用 LLM框架自带的测试 或者llm bench的脚本测试的. 我的M5pro 能到 300 - 400.</p>
<p dir="auto">我觉得R9700应该能到600以上吧?</p>
]]></description><link>https://lcz.me/post/4706</link><guid isPermaLink="true">https://lcz.me/post/4706</guid><dc:creator><![CDATA[Tony Wang]]></dc:creator><pubDate>Tue, 02 Jun 2026 23:10:56 GMT</pubDate></item><item><title><![CDATA[Reply to r9700 32G速度总算达标了，27B MTP,能上50t&#x2F;s on Tue, 02 Jun 2026 22:57:51 GMT]]></title><description><![CDATA[<p dir="auto">最大功耗限制在280W,   不限制应该还能更高点。 不过性能损失应该很小。</p>
<p dir="auto">-c 65536 -ngl 99 <br />
--reasoning auto <br />
--spec-type draft-mtp --spec-draft-n-max 3 <br />
--flash-attn on <br />
-ub 512 \</p>
]]></description><link>https://lcz.me/post/4705</link><guid isPermaLink="true">https://lcz.me/post/4705</guid><dc:creator><![CDATA[sospda]]></dc:creator><pubDate>Tue, 02 Jun 2026 22:57:51 GMT</pubDate></item></channel></rss>