<?xml version="1.0" encoding="UTF-8"?><rss xmlns:dc="http://purl.org/dc/elements/1.1/" xmlns:content="http://purl.org/rss/1.0/modules/content/" xmlns:atom="http://www.w3.org/2005/Atom" version="2.0"><channel><title><![CDATA[r9700 hermes出token慢]]></title><description><![CDATA[<p dir="auto">请教各位大佬，r9700单卡跑qwen 3.6 27b q4m在网页端聊天窗口出token速度还很正常，64kcontext大概 40-45tps，一旦在hermes上使用这个本地模型，就非常慢，请问如何解决。 谢谢了</p>
]]></description><link>https://lcz.me/topic/726/r9700-hermes出token慢</link><generator>RSS for Node</generator><lastBuildDate>Wed, 01 Jul 2026 09:31:27 GMT</lastBuildDate><atom:link href="https://lcz.me/topic/726.rss" rel="self" type="application/rss+xml"/><pubDate>Sun, 28 Jun 2026 08:21:26 GMT</pubDate><ttl>60</ttl><item><title><![CDATA[Reply to r9700 hermes出token慢 on Mon, 29 Jun 2026 01:44:53 GMT]]></title><description><![CDATA[<p dir="auto">多谢解答 学习到了</p>
]]></description><link>https://lcz.me/post/8712</link><guid isPermaLink="true">https://lcz.me/post/8712</guid><dc:creator><![CDATA[Ali Jiang]]></dc:creator><pubDate>Mon, 29 Jun 2026 01:44:53 GMT</pubDate></item><item><title><![CDATA[Reply to r9700 hermes出token慢 on Sun, 28 Jun 2026 09:20:19 GMT]]></title><description><![CDATA[<p dir="auto">有几个因素：1、因为hermes有很多的系统提示词以及提示词加工，相当于是要一口气输入大概10k到20k token的内容。</p>
<p dir="auto">2、hermes是附带工具调用的，所以你看到他回复，是hermes已经和你的llm私下交流过n次之后的结果。</p>
<p dir="auto">因此，对于agent工具而言，llm的性能不光要看decode速度，从某种意义上讲，prefill速度更为重要。</p>
]]></description><link>https://lcz.me/post/8633</link><guid isPermaLink="true">https://lcz.me/post/8633</guid><dc:creator><![CDATA[kop wang]]></dc:creator><pubDate>Sun, 28 Jun 2026 09:20:19 GMT</pubDate></item></channel></rss>