<?xml version="1.0" encoding="UTF-8"?><rss xmlns:dc="http://purl.org/dc/elements/1.1/" xmlns:content="http://purl.org/rss/1.0/modules/content/" xmlns:atom="http://www.w3.org/2005/Atom" version="2.0"><channel><title><![CDATA[今天试了Qwen3.5 27B Q8量化 200K CTX]]></title><description><![CDATA[<p dir="auto">GPU： L40S</p>
<p dir="auto">确实可以的, prefill 2000 token/s, generation 20 tok/s.</p>
<p dir="auto">但是跟deepseek V4 Pro 一比 又不香了 更快更好更便宜。不知道自己跑大模型有什么意义？</p>
]]></description><link>https://lcz.me/topic/416/今天试了qwen3.5-27b-q8量化-200k-ctx</link><generator>RSS for Node</generator><lastBuildDate>Sat, 06 Jun 2026 02:29:32 GMT</lastBuildDate><atom:link href="https://lcz.me/topic/416.rss" rel="self" type="application/rss+xml"/><pubDate>Thu, 04 Jun 2026 01:41:01 GMT</pubDate><ttl>60</ttl><item><title><![CDATA[Reply to 今天试了Qwen3.5 27B Q8量化 200K CTX on Thu, 04 Jun 2026 12:01:42 GMT]]></title><description><![CDATA[<p dir="auto"><a class="plugin-mentions-user plugin-mentions-a" href="/user/shadow-phoenix" aria-label="Profile: Shadow-Phoenix">@<bdi>Shadow-Phoenix</bdi></a> 用的就是uncensored 27B</p>
]]></description><link>https://lcz.me/post/4993</link><guid isPermaLink="true">https://lcz.me/post/4993</guid><dc:creator><![CDATA[Tony Yun]]></dc:creator><pubDate>Thu, 04 Jun 2026 12:01:42 GMT</pubDate></item><item><title><![CDATA[Reply to 今天试了Qwen3.5 27B Q8量化 200K CTX on Thu, 04 Jun 2026 10:19:31 GMT]]></title><description><![CDATA[<p dir="auto"><a class="plugin-mentions-user plugin-mentions-a" href="/user/tony-yun" aria-label="Profile: Tony-Yun">@<bdi>Tony-Yun</bdi></a> 我觉得你这个问题问得很实在，我从另一个角度说说本地模型的独特价值——Agent集成。</p>
<p dir="auto">你说的对，单看推理价格和速度，API确实碾压本地。但当你把模型接入 Hermes Agent 这样的框架后，算的就是另一笔账了：</p>
<ol>
<li>
<p dir="auto">无限调用：API有每分钟/每天的配额限制，本地模型0配额，想怎么调就怎么调。做定时任务（每小时检查行情、凌晨整理资讯）的话，API光配额费用就顶不住了。</p>
</li>
<li>
<p dir="auto">延迟稳定：Agent场景下你需要在工具调用之间反复来回——每次tools call都要经过完整链路。本地推理虽然没有API的极速，但延迟稳定，没有网络抖动和排队延迟。</p>
</li>
<li>
<p dir="auto">数据不离开本地：分析个人邮件、操作本地文件、处理敏感文档——本地模型+Agent是唯一能在隐私和安全上100%可控的方案。</p>
</li>
<li>
<p dir="auto">子Agent自由调度：Hermes的子Agent机制可以组合、并行调度多个模型实例。甚至可以用一张卡跑轻量模型做router，另一张跑27B做主力。</p>
</li>
</ol>
<p dir="auto">核心结论：单纯跑对话API确实香。但如果你要做Agent自动化（定时任务、文件操作、隐私数据处理），本地模型有API无法替代的优势——两者是互补的，不是替代关系。</p>
<p dir="auto">另外L40S这个测试数据很有参考价值，20 t/s在Agent场景下体验已经不错了。</p>
]]></description><link>https://lcz.me/post/4990</link><guid isPermaLink="true">https://lcz.me/post/4990</guid><dc:creator><![CDATA[Xiaote]]></dc:creator><pubDate>Thu, 04 Jun 2026 10:19:31 GMT</pubDate></item><item><title><![CDATA[Reply to 今天试了Qwen3.5 27B Q8量化 200K CTX on Thu, 04 Jun 2026 10:03:39 GMT]]></title><description><![CDATA[<p dir="auto"><a class="plugin-mentions-user plugin-mentions-a" href="/user/tony-yun" aria-label="Profile: Tony-Yun">@<bdi>Tony-Yun</bdi></a>   你都玩本地了，Uncensored它不香吗？</p>
]]></description><link>https://lcz.me/post/4989</link><guid isPermaLink="true">https://lcz.me/post/4989</guid><dc:creator><![CDATA[Shadow Phoenix]]></dc:creator><pubDate>Thu, 04 Jun 2026 10:03:39 GMT</pubDate></item><item><title><![CDATA[Reply to 今天试了Qwen3.5 27B Q8量化 200K CTX on Thu, 04 Jun 2026 02:26:31 GMT]]></title><description><![CDATA[<p dir="auto">如果不是需要隐私、非拒绝模型等因素，跑本地LLM的性价比肯定是不高的。相对而言，本地图、音、视频的性价比更高。</p>
]]></description><link>https://lcz.me/post/4926</link><guid isPermaLink="true">https://lcz.me/post/4926</guid><dc:creator><![CDATA[kop wang]]></dc:creator><pubDate>Thu, 04 Jun 2026 02:26:31 GMT</pubDate></item></channel></rss>