<?xml version="1.0" encoding="UTF-8"?><rss xmlns:dc="http://purl.org/dc/elements/1.1/" xmlns:content="http://purl.org/rss/1.0/modules/content/" xmlns:atom="http://www.w3.org/2005/Atom" version="2.0"><channel><title><![CDATA[VLLM和SGlang和llama.cpp选择]]></title><description><![CDATA[<p dir="auto">我是英伟达409024G显卡，在VLLM和SGlang和llama.cpp中，你们觉得差别大吗？我现在用llama.cpp有点熟悉了，基本上80token/s我感觉速度也有，而且gguf的量化模型也多，vllm和SGlang对于gguf的量化好像适配也不好，要装其他的格式的模型好像显存占用也大，并且gguf还有很多无审查模型可以选，我暂时没找到要换框架的理由，请来个实战家，骂醒我，主要还是对其他两套不熟悉</p>
]]></description><link>https://lcz.me/topic/415/vllm和sglang和llama.cpp选择</link><generator>RSS for Node</generator><lastBuildDate>Sat, 06 Jun 2026 03:36:41 GMT</lastBuildDate><atom:link href="https://lcz.me/topic/415.rss" rel="self" type="application/rss+xml"/><pubDate>Wed, 03 Jun 2026 23:43:27 GMT</pubDate><ttl>60</ttl><item><title><![CDATA[Reply to VLLM和SGlang和llama.cpp选择 on Fri, 05 Jun 2026 09:58:21 GMT]]></title><description><![CDATA[<p dir="auto">24g纠结啥啊，就老老实实llama.cpp单槽用</p>
]]></description><link>https://lcz.me/post/5189</link><guid isPermaLink="true">https://lcz.me/post/5189</guid><dc:creator><![CDATA[blackjack]]></dc:creator><pubDate>Fri, 05 Jun 2026 09:58:21 GMT</pubDate></item><item><title><![CDATA[Reply to VLLM和SGlang和llama.cpp选择 on Thu, 04 Jun 2026 14:37:18 GMT]]></title><description><![CDATA[<p dir="auto">我曾經先嘗試用SGLang跑模型，但受限於硬體架構 有些模型無法跑成功, 目前先用llama.cpp 各種模型跑得很舒服, 等到生產力階段再回來使用SGLang整一個穩定版本的</p>
]]></description><link>https://lcz.me/post/5024</link><guid isPermaLink="true">https://lcz.me/post/5024</guid><dc:creator><![CDATA[kos or]]></dc:creator><pubDate>Thu, 04 Jun 2026 14:37:18 GMT</pubDate></item><item><title><![CDATA[Reply to VLLM和SGlang和llama.cpp选择 on Thu, 04 Jun 2026 09:33:49 GMT]]></title><description><![CDATA[<p dir="auto"><a class="plugin-mentions-user plugin-mentions-a" href="/user/cs6" aria-label="Profile: CS6">@<bdi>CS6</bdi></a></p>
<p dir="auto">個人覺得, 與其折騰哪個引擎比較好, 倒不如理解它們背後的運作原理跟優勢更好, 尤其是Paged Attention (vLLM) 跟 Radix Attention (SGLang)</p>
<p dir="auto">Paged Attention能消除記憶體浪費跟支援平行採樣<br />
Radix Attention的前綴緩存(Prefix Caching)做得比vLLM好, 首字延遲(TTFT)更低</p>
<p dir="auto"><a href="https://quant67.com/post/llm-infra/12-paged-continuous/12-paged-continuous.html" rel="nofollow ugc">引用一下一個大神寫的文</a></p>
<p dir="auto"><img src="https://upload.lcz.me/uploads/8b42f7b2-2544-402a-b832-7bea48a4704c.jpeg" alt="13c94390-0998-4333-8019-7e4a22e8541f-image.jpeg" class=" img-fluid img-markdown" /></p>
<p dir="auto">至於家用的話, 個人覺得SGLang跟vLLM並不會有太大分別, 因為真的需要壓榨全部性能的情況太少了 (不是沒有, 除非你喜歡折騰), 付出的時間成本跟精力不成正比</p>
]]></description><link>https://lcz.me/post/4985</link><guid isPermaLink="true">https://lcz.me/post/4985</guid><dc:creator><![CDATA[566656661]]></dc:creator><pubDate>Thu, 04 Jun 2026 09:33:49 GMT</pubDate></item><item><title><![CDATA[Reply to VLLM和SGlang和llama.cpp选择 on Thu, 04 Jun 2026 05:51:08 GMT]]></title><description><![CDATA[<p dir="auto"><a class="plugin-mentions-user plugin-mentions-a" href="/user/tony-wang" aria-label="Profile: Tony-Wang">@<bdi>Tony-Wang</bdi></a> 在理</p>
]]></description><link>https://lcz.me/post/4951</link><guid isPermaLink="true">https://lcz.me/post/4951</guid><dc:creator><![CDATA[bily j]]></dc:creator><pubDate>Thu, 04 Jun 2026 05:51:08 GMT</pubDate></item><item><title><![CDATA[Reply to VLLM和SGlang和llama.cpp选择 on Thu, 04 Jun 2026 03:02:35 GMT]]></title><description><![CDATA[<p dir="auto">會糾結就跑虛擬化，直接拿人家大神寫好的容器跑起來幾乎不用設定，想切換環境就關掉重開就好<br />
因為會問這個問題，就代表你感覺不出來或者不同生態的差異對你工作還沒影響，<br />
更有可能的是你想要用的模型沒提供你想要的格式（？<br />
vllm和SGlang  對我來說的重點會是在多卡擴展並行處理能力，但我是用來當作個人實驗來反推工作中的情境<br />
但如果你只是拿來當個人的AI助理，我覺得沒有差別.....<br />
你頂多一次跑四到五個對話而已</p>
]]></description><link>https://lcz.me/post/4932</link><guid isPermaLink="true">https://lcz.me/post/4932</guid><dc:creator><![CDATA[CS6]]></dc:creator><pubDate>Thu, 04 Jun 2026 03:02:35 GMT</pubDate></item><item><title><![CDATA[Reply to VLLM和SGlang和llama.cpp选择 on Thu, 04 Jun 2026 01:08:19 GMT]]></title><description><![CDATA[<p dir="auto">能用就不要折腾，抓紧干活，没应用场景折腾不出什么意义来。</p>
]]></description><link>https://lcz.me/post/4910</link><guid isPermaLink="true">https://lcz.me/post/4910</guid><dc:creator><![CDATA[terry]]></dc:creator><pubDate>Thu, 04 Jun 2026 01:08:19 GMT</pubDate></item><item><title><![CDATA[Reply to VLLM和SGlang和llama.cpp选择 on Thu, 04 Jun 2026 01:05:28 GMT]]></title><description><![CDATA[<p dir="auto"><a class="plugin-mentions-user plugin-mentions-a" href="/user/bily-j" aria-label="Profile: bily-j">@<bdi>bily-j</bdi></a> Tony Wang说得对，能用就不用折腾。不过既然你问了技术对比，我展开说说：</p>
<p dir="auto">llama.cpp + GGUF 的核心优势：</p>
<ul>
<li>生态最成熟，模型选择最多（HuggingFace上GGUF格式最全）</li>
<li>量化精度可控，Q2到Q8随便选</li>
<li>内存效率高，4090 24G跑Q4_K_M的27B模型能到80t/s很合理</li>
<li>加载快，适合频繁换模型</li>
<li>缺点是batch推理效率不如vLLM，高并发场景吃亏</li>
</ul>
<p dir="auto">vLLM的优势：</p>
<ul>
<li>做服务端/API很好，PagedAttention显存利用率高，多并发时吞吐量碾压llama.cpp</li>
<li>Continuous batching处理多请求时效率极高</li>
<li>但vLLM对GGUF支持确实很烂（llama.cpp backend实验性质），需要用AWQ/GPTQ/Marlin等格式</li>
<li>单用户日常对话，vLLM优势体现不出来</li>
</ul>
<p dir="auto">SGlang：</p>
<ul>
<li>介于两者之间，RadixAttention对前缀共享场景优化好（多轮对话、system prompt长的场景）</li>
<li>对MTP（投机采样）支持比vLLM好，但生态不如vLLM成熟</li>
<li>同样需要非GGUF格式</li>
</ul>
<p dir="auto">所以你现在的情况：4090单卡自己用，llama.cpp完全够用，80t/s很好了。你换vLLM要重新下载AWQ模型（至少多占2-3G显存），还得配置API server，单用户场景提升不大。继续用llama.cpp就对了。什么时候需要同时服务多个人或者做API网关，再考虑vLLM。</p>
]]></description><link>https://lcz.me/post/4908</link><guid isPermaLink="true">https://lcz.me/post/4908</guid><dc:creator><![CDATA[Xiaote]]></dc:creator><pubDate>Thu, 04 Jun 2026 01:05:28 GMT</pubDate></item><item><title><![CDATA[Reply to VLLM和SGlang和llama.cpp选择 on Wed, 03 Jun 2026 23:47:14 GMT]]></title><description><![CDATA[<ul>
<li>
<p dir="auto">你要是为了自己用, 能用就不用再折腾了</p>
</li>
<li>
<p dir="auto">你要是想成为这方面的专家, 就一定要折腾</p>
</li>
<li>
<p dir="auto">你要是乐于折腾, 那也不错, 不过从90分到95分的难度, 远远高于 60分到90分的难度, 性价比不高.</p>
</li>
<li>
<p dir="auto">重要的是尽快产生生产力, 尽快帮助自己解决问题.</p>
</li>
</ul>
]]></description><link>https://lcz.me/post/4903</link><guid isPermaLink="true">https://lcz.me/post/4903</guid><dc:creator><![CDATA[Tony Wang]]></dc:creator><pubDate>Wed, 03 Jun 2026 23:47:14 GMT</pubDate></item></channel></rss>