<?xml version="1.0" encoding="UTF-8"?><rss xmlns:dc="http://purl.org/dc/elements/1.1/" xmlns:content="http://purl.org/rss/1.0/modules/content/" xmlns:atom="http://www.w3.org/2005/Atom" version="2.0"><channel><title><![CDATA[在vllm和sglang的框架使用中]]></title><description><![CDATA[<p dir="auto">我上次是跟你在评论里讨论过，就是跑起来了，但是都碰到模型加载的问题，好像对gguf适配不行，要AWQ或者P开头的那个，但问题是那个模型比GGUF大，上次你跟我说vllm，sglang在4090-24G显卡里就不要考虑了，但是奈何45TOKEN等的蛋疼</p>
]]></description><link>https://lcz.me/topic/59/在vllm和sglang的框架使用中</link><generator>RSS for Node</generator><lastBuildDate>Wed, 20 May 2026 09:45:42 GMT</lastBuildDate><atom:link href="https://lcz.me/topic/59.rss" rel="self" type="application/rss+xml"/><pubDate>Fri, 08 May 2026 07:23:19 GMT</pubDate><ttl>60</ttl><item><title><![CDATA[Reply to 在vllm和sglang的框架使用中 on Fri, 08 May 2026 11:28:52 GMT]]></title><description><![CDATA[<p dir="auto"><a class="plugin-mentions-user plugin-mentions-a" href="/user/%E7%8E%8B%E4%B8%80%E6%B0%91" aria-label="Profile: 王一民">@<bdi>王一民</bdi></a> 这一块缓存还是SG-Lang好，但是它版本地狱，还有就是显卡贷款足够就行。</p>
]]></description><link>https://lcz.me/post/549</link><guid isPermaLink="true">https://lcz.me/post/549</guid><dc:creator><![CDATA[terry]]></dc:creator><pubDate>Fri, 08 May 2026 11:28:52 GMT</pubDate></item><item><title><![CDATA[Reply to 在vllm和sglang的框架使用中 on Fri, 08 May 2026 08:16:04 GMT]]></title><description><![CDATA[<p dir="auto">我在实践中感觉，其实prefill性能对于hermes这种智能体其实更重要。因为智能体为了保证没有信息查，每次交互都会带很多context，prefill跑不起来，可能每次对话都要等几十秒才能开始decode</p>
]]></description><link>https://lcz.me/post/540</link><guid isPermaLink="true">https://lcz.me/post/540</guid><dc:creator><![CDATA[王一民]]></dc:creator><pubDate>Fri, 08 May 2026 08:16:04 GMT</pubDate></item><item><title><![CDATA[Reply to 在vllm和sglang的框架使用中 on Fri, 08 May 2026 08:06:51 GMT]]></title><description><![CDATA[<p dir="auto">我又不是玉皇大帝，老哥你该折腾还折腾啊，跑那个vllm mtp测试下</p>
]]></description><link>https://lcz.me/post/538</link><guid isPermaLink="true">https://lcz.me/post/538</guid><dc:creator><![CDATA[terry]]></dc:creator><pubDate>Fri, 08 May 2026 08:06:51 GMT</pubDate></item></channel></rss>