<?xml version="1.0" encoding="UTF-8"?><rss xmlns:dc="http://purl.org/dc/elements/1.1/" xmlns:content="http://purl.org/rss/1.0/modules/content/" xmlns:atom="http://www.w3.org/2005/Atom" version="2.0"><channel><title><![CDATA[被抡锤者种草后，我用 X99 + 4090D 48G 搭了一台本地 LLM 服务器]]></title><description><![CDATA[<p dir="auto">这次折腾的起因很偶然。</p>
<p dir="auto">大概一个月前，YouTube 给我推了抡锤者频道的一期视频。点进去以后有点上头，后来陆陆续续把相关内容基本都看了一遍。最开始只是被 48G 显存、本地大模型、Qwen、Hermes、ComfyUI 这些关键词吸引，后来才发现，这件事正好能解决我家里几台机器长期以来的资源分配问题。</p>
<p dir="auto">我原来已经有几台设备：</p>
<pre><code class="language-text">5900X + MSI B550M 迫击炮 + 32G + RTX 4080S 16G
Mac mini M4
D1581 平台 / NAS
一些旧 DDR4 ECC 内存
</code></pre>
<p dir="auto">问题不是完全没有硬件，而是这些硬件没有各归其位。</p>
<p dir="auto">4080S 这台桌面机本来要打游戏，也能跑 ComfyUI，但 16G 显存拿来硬扛 27B 本地大模型主力，显然会比较难受。</p>
<p dir="auto">Mac mini M4 很安静，适合当日常工作台，调用 DeepSeek、本地模型和其他在线 API，用来写程序、写文章都很顺，但它不适合承担重负载。</p>
<p dir="auto">D1581 做 NAS 和轻服务可以，但长期带大显卡跑 LLM，我觉得不太合适。</p>
<p dir="auto">最后新增了一套机器：</p>
<pre><code class="language-text">主板：华南金牌 X99 AD4
CPU：Intel Xeon E5-2690 v4 @ 2.60GHz，单路 14 核 28 线程
内存：64 GiB ECC DDR4
显卡：NVIDIA GeForce RTX 4090D 48G
系统：Ubuntu 24.04
</code></pre>
<p dir="auto">内存是从老 NAS 上拆下来的，当时买得很便宜，不到 500 元。X99 平台不新，E5-2690 v4 也不强，但这套组合的定位很明确：不是追新，也不是靠 CPU 推理，而是低成本承载 4090D 48G。</p>
<p dir="auto">现在我的分工是：</p>
<pre><code class="language-text">4090D 48G：本地大语言模型后端，主力跑 Qwen3.6-27B Q8_0
4080S 16G：桌面主力，兼顾游戏和 ComfyUI
Mac mini M4：日常 AI 工作台，调用 DeepSeek、本地模型和各种 API
D1581 / NAS：回归存储和轻服务
</code></pre>
<p dir="auto">这套分工理顺以后，体验比单纯把所有硬件堆到一台机器上舒服很多。</p>
<p dir="auto">4090D 不进桌面机打游戏，而是常驻 llama-server。<br />
4080S 不被 LLM 长期占显存，继续负责游戏和 ComfyUI。<br />
Mac mini 不做重计算，只负责调度和使用。<br />
NAS 不硬扛大显卡，继续做它擅长的存储和轻服务。</p>
<p dir="auto">这次最大的收获不是“4090D 很强”，而是家用本地 AI 不能只看单机性能。LLM、ComfyUI、游戏、NAS、日常写作编程，根本不是同一种负载。显存、噪音、维护成本、远程访问、环境隔离，都要一起考虑。</p>
<p dir="auto">目前这套架构已经能稳定用起来：</p>
<pre><code class="language-text">4090D 跑本地 LLM
4080S 负责游戏和 ComfyUI
Mac mini 调用 DeepSeek / 本地模型 / 其他 API，写程序和文章
NAS 做存储和资料管理
</code></pre>
<p dir="auto">简单说，就是从“能跑”变成了“能用”。</p>
]]></description><link>https://lcz.me/topic/528/被抡锤者种草后-我用-x99-4090d-48g-搭了一台本地-llm-服务器</link><generator>RSS for Node</generator><lastBuildDate>Sat, 13 Jun 2026 19:10:26 GMT</lastBuildDate><atom:link href="https://lcz.me/topic/528.rss" rel="self" type="application/rss+xml"/><pubDate>Thu, 11 Jun 2026 16:21:34 GMT</pubDate><ttl>60</ttl><item><title><![CDATA[Reply to 被抡锤者种草后，我用 X99 + 4090D 48G 搭了一台本地 LLM 服务器 on Sat, 13 Jun 2026 17:26:22 GMT]]></title><description><![CDATA[<blockquote>
<p dir="auto"><a class="plugin-mentions-user plugin-mentions-a" href="/user/%E4%BD%A0%E7%9A%84%E5%90%8D%E5%AD%97%E6%88%91%E7%9A%84%E5%90%8D%E5%AD%97%E9%83%BD%E6%98%AF%E4%B8%80%E6%A0%B7%E7%9A%84" aria-label="Profile: 你的名字我的名字都是一样的">@<bdi>你的名字我的名字都是一样的</bdi></a> <a href="/post/6735">说</a>:</p>
<p dir="auto">可以关掉桌面UI，也可以考虑换一块5700G集显负担桌面UI的性能。感觉5700G也足够了，除非用X3DCPU才会有所区别，延迟会好一点。</p>
</blockquote>
<p dir="auto">也是个思路，现在9x00x系列的amd也带核显了，如果是新amd平台或者带核显的intel平台（非e5），确实可以这样操作</p>
]]></description><link>https://lcz.me/post/6740</link><guid isPermaLink="true">https://lcz.me/post/6740</guid><dc:creator><![CDATA[Ivan Yin]]></dc:creator><pubDate>Sat, 13 Jun 2026 17:26:22 GMT</pubDate></item><item><title><![CDATA[Reply to 被抡锤者种草后，我用 X99 + 4090D 48G 搭了一台本地 LLM 服务器 on Sat, 13 Jun 2026 16:20:40 GMT]]></title><description><![CDATA[<p dir="auto">可以关掉桌面UI，也可以考虑换一块5700G集显负担桌面UI的性能。感觉5700G也足够了，除非用X3DCPU才会有所区别，延迟会好一点。</p>
]]></description><link>https://lcz.me/post/6735</link><guid isPermaLink="true">https://lcz.me/post/6735</guid><dc:creator><![CDATA[你的名字我的名字都是一样的]]></dc:creator><pubDate>Sat, 13 Jun 2026 16:20:40 GMT</pubDate></item><item><title><![CDATA[Reply to 被抡锤者种草后，我用 X99 + 4090D 48G 搭了一台本地 LLM 服务器 on Sat, 13 Jun 2026 16:06:22 GMT]]></title><description><![CDATA[<p dir="auto">感谢细致的分享。小白敬上</p>
]]></description><link>https://lcz.me/post/6734</link><guid isPermaLink="true">https://lcz.me/post/6734</guid><dc:creator><![CDATA[Bryant Wu]]></dc:creator><pubDate>Sat, 13 Jun 2026 16:06:22 GMT</pubDate></item><item><title><![CDATA[Reply to 被抡锤者种草后，我用 X99 + 4090D 48G 搭了一台本地 LLM 服务器 on Sat, 13 Jun 2026 13:46:21 GMT]]></title><description><![CDATA[<p dir="auto">更正上面的测试，编写汉语文章是43t/s,但是coding的速度远大于这个，稳定在60左右，完全是可用状态，没有必要为了节省显存或追求最高速度，降低精度了</p>
<p dir="auto"><img src="https://upload.lcz.me/uploads/a828fd61-a70b-40ae-90b6-8ed74b399a8e.jpg" alt="截图 2026-06-13 21-41-56-s.jpg" class=" img-fluid img-markdown" /><br />
<img src="https://upload.lcz.me/uploads/d67184c2-a6bf-4752-9c52-f09351ed8203.png" alt="截图 2026-06-13 21-44-30.png" class=" img-fluid img-markdown" /></p>
<p dir="auto"><img src="https://upload.lcz.me/uploads/5128ab11-424a-4f51-a280-72b0d17112b0.png" alt="截图 2026-06-13 21-45-40.png" class=" img-fluid img-markdown" /></p>
]]></description><link>https://lcz.me/post/6700</link><guid isPermaLink="true">https://lcz.me/post/6700</guid><dc:creator><![CDATA[Ivan Yin]]></dc:creator><pubDate>Sat, 13 Jun 2026 13:46:21 GMT</pubDate></item><item><title><![CDATA[Reply to 被抡锤者种草后，我用 X99 + 4090D 48G 搭了一台本地 LLM 服务器 on Sat, 13 Jun 2026 08:32:15 GMT]]></title><description><![CDATA[<blockquote>
<p dir="auto"><a class="plugin-mentions-user plugin-mentions-a" href="/user/williamlouis" aria-label="Profile: williamlouis">@<bdi>williamlouis</bdi></a> <a href="/post/6607">说</a>:</p>
<p dir="auto"><a class="plugin-mentions-user plugin-mentions-a" href="/user/applejuice" aria-label="Profile: applejuice">@<bdi>applejuice</bdi></a> 找个你本地的能干的工作室给你搞。换显存 自己搞什么？不过升级意义很大。变32G就是神器一件了。</p>
</blockquote>
<p dir="auto">这卡我还想留着打游戏呢，哈哈。稳定第一，干活交给4090d好了，不能把风险都放在同一个魔改卡的篮子里。原装三风扇的4080s无论怎么说都是可以长期稳定使用的，哪怕像老特4090d出问题，4090能干的所有活4080都能降低质量接续上。</p>
]]></description><link>https://lcz.me/post/6630</link><guid isPermaLink="true">https://lcz.me/post/6630</guid><dc:creator><![CDATA[Ivan Yin]]></dc:creator><pubDate>Sat, 13 Jun 2026 08:32:15 GMT</pubDate></item><item><title><![CDATA[Reply to 被抡锤者种草后，我用 X99 + 4090D 48G 搭了一台本地 LLM 服务器 on Sat, 13 Jun 2026 07:37:46 GMT]]></title><description><![CDATA[<p dir="auto">京东我看见 有以旧换新的商铺 就你把16G给他。它直接给你一块 32G的。变相的少折腾升级。当然到手的就是别人的16G魔改后的到你手了。你的后续也是魔改了给别人。</p>
]]></description><link>https://lcz.me/post/6609</link><guid isPermaLink="true">https://lcz.me/post/6609</guid><dc:creator><![CDATA[williamlouis]]></dc:creator><pubDate>Sat, 13 Jun 2026 07:37:46 GMT</pubDate></item><item><title><![CDATA[Reply to 被抡锤者种草后，我用 X99 + 4090D 48G 搭了一台本地 LLM 服务器 on Sat, 13 Jun 2026 07:32:03 GMT]]></title><description><![CDATA[<p dir="auto"><a class="plugin-mentions-user plugin-mentions-a" href="/user/applejuice" aria-label="Profile: applejuice">@<bdi>applejuice</bdi></a> 找个你本地的能干的工作室给你搞。换显存 自己搞什么？不过升级意义很大。变32G就是神器一件了。</p>
]]></description><link>https://lcz.me/post/6607</link><guid isPermaLink="true">https://lcz.me/post/6607</guid><dc:creator><![CDATA[williamlouis]]></dc:creator><pubDate>Sat, 13 Jun 2026 07:32:03 GMT</pubDate></item><item><title><![CDATA[Reply to 被抡锤者种草后，我用 X99 + 4090D 48G 搭了一台本地 LLM 服务器 on Sat, 13 Jun 2026 08:59:16 GMT]]></title><description><![CDATA[<p dir="auto">llama.cpp有更新，与mtp性能相关，我编译新版本后比较一下<br />
<img src="https://upload.lcz.me/uploads/060849f9-aba5-4ceb-beea-4ee7dae66bce.png" alt="截图 2026-06-13 14-34-33.png" class=" img-fluid img-markdown" /></p>
<p dir="auto">在平时使用时，没有什么区别，q8依然还是43左右t/s<br />
<img src="https://upload.lcz.me/uploads/802367b0-6f17-4a61-825c-53c743fe6a00.png" alt="截图 2026-06-13 16-58-07.png" class=" img-fluid img-markdown" /> <img src="https://upload.lcz.me/uploads/56272c0c-49ad-4b9e-9fc0-b909c0898eda.png" alt="截图 2026-06-13 16-58-11.png" class=" img-fluid img-markdown" /></p>
]]></description><link>https://lcz.me/post/6586</link><guid isPermaLink="true">https://lcz.me/post/6586</guid><dc:creator><![CDATA[Ivan Yin]]></dc:creator><pubDate>Sat, 13 Jun 2026 08:59:16 GMT</pubDate></item><item><title><![CDATA[Reply to 被抡锤者种草后，我用 X99 + 4090D 48G 搭了一台本地 LLM 服务器 on Sat, 13 Jun 2026 06:12:34 GMT]]></title><description><![CDATA[<p dir="auto">在chatgpt中提问q8、q6精度问题的核心观点如下，供大家参考：</p>
<p dir="auto">结论：<strong>Qwen 3.6 27B 的 Q8 和 Q6，在“可感知精度”上差距不大；Q6_K 已经非常接近满血，Q8_0 更接近 BF16/FP16，主要优势体现在长尾稳定性、复杂代码、长上下文、多轮工具调用这些高压场景。</strong></p>
<h3>1. 本质区别：不是“智商档位”，而是权重还原误差不同</h3>
<p dir="auto">量化就是把原始 BF16/FP16 权重压缩成低 bit 表示。llama.cpp 官方说明里也明确说，量化会降低权重精度，可能引入准确率损失，通常用 perplexity、KLD 等指标衡量。(<a href="https://github.com/ggml-org/llama.cpp/blob/master/tools/quantize/README.md" title="llama.cpp/tools/quantize/README.md at master · ggml-org/llama.cpp · GitHub" rel="nofollow ugc">GitHub</a>)</p>
<p dir="auto">对你现在用的 GGUF 来说：</p>
<table class="table table-bordered table-striped">
<thead>
<tr>
<th>版本</th>
<th>精度含义</th>
<th>对模型输出的影响</th>
</tr>
</thead>
<tbody>
<tr>
<td><strong>Q8_0</strong></td>
<td>约 8-bit 权重量化</td>
<td>最接近原始 BF16/FP16，概率分布扰动最小</td>
</tr>
<tr>
<td><strong>Q6_K</strong></td>
<td>约 6-bit K-quant</td>
<td>压缩更强，但仍属于高质量量化，通常很接近原模型</td>
</tr>
<tr>
<td><strong>Q4/Q5</strong></td>
<td>更激进压缩</td>
<td>可用，但更容易在复杂推理、代码、长上下文中出错</td>
</tr>
</tbody>
</table>
<p dir="auto">所以 Q8 不是让模型“更聪明”，而是<strong>更少破坏原模型已经学到的能力</strong>；Q6 也不是明显降智，而是略微增加了权重误差。</p>
<hr />
<h3>2. 用现有 Qwen3.6-27B GGUF 量化指标看：Q8 确实更接近满血，但 Q6 已经很高</h3>
<p dir="auto">一个 Qwen3.6-27B GGUF 量化仓库给出的相对 BF16/full precision 指标里，Q6_K 和 Q8_0 的差距如下：(<a href="https://huggingface.co/DavidAU/Qwen3.6-27B-NEO-CODE-Di-IMatrix-MAX-GGUF" title="DavidAU/Qwen3.6-27B-NEO-CODE-Di-IMatrix-MAX-GGUF · Hugging Face" rel="nofollow ugc">Hugging Face</a>)</p>
<table class="table table-bordered table-striped">
<thead>
<tr>
<th>指标</th>
<th style="text-align:right">Q6_K</th>
<th style="text-align:right">Q8_0</th>
<th>怎么理解</th>
</tr>
</thead>
<tbody>
<tr>
<td>Same Top P</td>
<td style="text-align:right"><strong>97.34%</strong></td>
<td style="text-align:right"><strong>98.38%</strong></td>
<td>Q8 的 token 概率分布更接近满血</td>
</tr>
<tr>
<td>Mean KLD</td>
<td style="text-align:right"><strong>0.0056</strong></td>
<td style="text-align:right"><strong>0.0034</strong></td>
<td>Q8 平均分布偏移更小</td>
</tr>
<tr>
<td>99.9% KLD</td>
<td style="text-align:right"><strong>0.50</strong></td>
<td style="text-align:right"><strong>0.20</strong></td>
<td>Q8 长尾极端错误概率更低</td>
</tr>
<tr>
<td>RMS Δp</td>
<td style="text-align:right"><strong>1.988%</strong></td>
<td style="text-align:right"><strong>1.538%</strong></td>
<td>Q8 输出概率整体扰动更小</td>
</tr>
<tr>
<td>Mean PPL</td>
<td style="text-align:right"><strong>6.924</strong></td>
<td style="text-align:right"><strong>6.914</strong></td>
<td>两者都很接近 BF16 约 6.900</td>
</tr>
</tbody>
</table>
<p dir="auto">这组数据可以直接解释：<strong>Q8 比 Q6 精度更高，但不是断崖式差距，而是“边缘稳定性”和“长尾可靠性”的提升。</strong></p>
<p dir="auto">最关键的是 99.9% KLD：Q8_0 为 0.20，Q6_K 为 0.50。这个差距说明 Q8 在少数高敏感 token 上更稳。平时聊天你未必感知得到，但写代码、工具调用、长上下文检索、数学推理时，恰恰容易被这些“少数关键 token”影响。</p>
<hr />
<h3>3. 实际体感：Q6 大多数时候够用，Q8 主要减少“莫名其妙的小错”</h3>
<p dir="auto">你日常用 Qwen3.6 27B 做这些事情时，差异大概是这样：</p>
<p dir="auto"><strong>普通问答、总结、润色、公文初稿：</strong><br />
Q6_K 和 Q8_0 差距很小。很多时候你盲测不一定能稳定分辨。文本流畅度、语气、一般知识问答基本不会出现明显差别。</p>
<p dir="auto"><strong>代码生成、改 bug、项目级理解：</strong><br />
Q8 更稳一点。不是说 Q6 不会写代码，而是 Q6 更容易在边缘处犯小错，比如漏一个参数、误判一个库 API、JSON schema 细节不准、复杂文件关系里少看一层。Qwen3.6-27B 官方定位里也强调 agentic coding、repository-level reasoning、tool use 等能力，这类能力对 token 级稳定性更敏感。(<a href="https://huggingface.co/Qwen/Qwen3.6-27B/blame/main/README.md?utm_source=chatgpt.com" title="README.md · Qwen/Qwen3.6-27B at main" rel="nofollow ugc">Hugging Face</a>)</p>
<p dir="auto"><strong>长上下文，尤其 128K—262K：</strong><br />
Q8 更值得用。Qwen3.6-27B 的默认上下文是 262,144 tokens，官方还建议复杂任务至少保持 128K 以保留 thinking 能力。(<a href="https://huggingface.co/Qwen/Qwen3.6-27B?utm_source=chatgpt.com" title="Qwen/Qwen3.6-27B" rel="nofollow ugc">Hugging Face</a>) 长上下文下，模型需要在大量信息中维持注意力、引用关系和中间推理，Q8 的低扰动会更有价值。</p>
<p dir="auto"><strong>数学、逻辑、精确推理：</strong><br />
Q8 有优势，但不是质变。量化误差不会直接改变模型结构，也不会凭空增加推理能力；它只是减少原模型 logits 被扰动的程度。对于“下一步 token 很明确”的问题，Q6 与 Q8 几乎一样；对于“多个候选 token 概率很接近”的问题，Q6 更可能把模型推向另一条错误路径。</p>
<p dir="auto"><strong>小说、角色扮演、长文续写：</strong><br />
Q6 已经很好。Q8 的优势更多是长篇一致性、人物设定不漂、前文细节保持更稳，但体感差异通常小于采样参数、提示词、上下文管理的影响。</p>
<hr />
<h3>4. 对你这台 4090D 48G 的建议</h3>
<p dir="auto">按“精度优先”排序，我会这样建议：</p>
<p dir="auto"><strong>第一选择：Q8_0 + Q8 KV</strong><br />
适合：代码、长上下文、公文材料精修、复杂推理、重要输出。<br />
这是你显存允许时最稳的本地 GGUF 方案。</p>
<p dir="auto"><strong>第二选择：Q6_K + Q8 KV</strong><br />
适合：日常主力、速度优先但不想明显牺牲能力。<br />
从精度角度看，Q6_K 已经接近满血，很多时候比你想象中稳。尤其你已经观察到 Q8 比 Q6 慢约 30%，那么 Q6_K 是很合理的日常档。</p>
<p dir="auto"><strong>不建议为了模型权重 Q8，而把 KV cache 降得太狠。</strong><br />
长上下文场景里，KV 精度、上下文长度、RoPE/YaRN 设置、prompt 结构，都会影响最终质量。很多情况下，<strong>Q6_K 权重 + Q8_KV</strong> 比 <strong>Q8 权重 + 激进 KV 压缩</strong> 更均衡。</p>
<hr />
<h3>5. 一句话判断</h3>
<p dir="auto">对 Qwen3.6 27B：</p>
<p dir="auto"><strong>Q6_K 是“高质量实用档”，能力基本保住；Q8_0 是“接近满血保险档”，主要提升复杂任务、长上下文、代码和工具调用的稳定性。</strong></p>
<p dir="auto">你要是本地长期作为 coding / 公文 / 知识库主力，我建议：<strong>默认 Q6_K，遇到重要代码、多文件重构、长上下文材料、需要一次性成功的任务，切 Q8_0。</strong></p>
]]></description><link>https://lcz.me/post/6582</link><guid isPermaLink="true">https://lcz.me/post/6582</guid><dc:creator><![CDATA[Ivan Yin]]></dc:creator><pubDate>Sat, 13 Jun 2026 06:12:34 GMT</pubDate></item><item><title><![CDATA[Reply to 被抡锤者种草后，我用 X99 + 4090D 48G 搭了一台本地 LLM 服务器 on Sat, 13 Jun 2026 06:14:56 GMT]]></title><description><![CDATA[<p dir="auto">上面只是平时用着的速度感受，测得不严谨，大家参考一下就好，别太当真。真要精确对比，可以按主贴里说的，让 Hermes 写代码跑测试。</p>
<p dir="auto">日常用下来，qwen3.6 27b 的 Q6 量化版确实性价比最高，速度和精度都不错，还能同时跑 ComfyUI 或者其他本地模型，不卡。Q8 的话速度慢个两成左右，但精度更好，适合半夜挂着让它自己 coding。</p>
]]></description><link>https://lcz.me/post/6581</link><guid isPermaLink="true">https://lcz.me/post/6581</guid><dc:creator><![CDATA[Ivan Yin]]></dc:creator><pubDate>Sat, 13 Jun 2026 06:14:56 GMT</pubDate></item><item><title><![CDATA[Reply to 被抡锤者种草后，我用 X99 + 4090D 48G 搭了一台本地 LLM 服务器 on Sat, 13 Jun 2026 06:03:36 GMT]]></title><description><![CDATA[<p dir="auto">同样参数下，调用q6量化模型，速度提升10t/s。显存占用25584MiB（刚24g左右），再稍微优化上下文，也适合24g显存的朋友使用（为求保险，可以关闭桌面ui）。</p>
<p dir="auto"><img src="https://upload.lcz.me/uploads/a981cc0b-e867-42e2-b08f-99adca0e337c.png" alt="截图 2026-06-13 14-00-40.png" class=" img-fluid img-markdown" /><br />
<img src="https://upload.lcz.me/uploads/6223948b-ca85-4c10-849d-58d2dd503be3.png" alt="截图 2026-06-13 14-00-45.png" class=" img-fluid img-markdown" /><br />
<img src="https://upload.lcz.me/uploads/39bef4b9-5730-40ce-813c-79f6caa84f95.png" alt="截图 2026-06-13 14-03-27.png" class=" img-fluid img-markdown" /></p>
]]></description><link>https://lcz.me/post/6580</link><guid isPermaLink="true">https://lcz.me/post/6580</guid><dc:creator><![CDATA[Ivan Yin]]></dc:creator><pubDate>Sat, 13 Jun 2026 06:03:36 GMT</pubDate></item><item><title><![CDATA[Reply to 被抡锤者种草后，我用 X99 + 4090D 48G 搭了一台本地 LLM 服务器 on Sat, 13 Jun 2026 06:06:09 GMT]]></title><description><![CDATA[<p dir="auto">Q8在我的coding优化启动脚本下，平均生成为43t/s,体感可用。<br />
显存占用不到32G,4080s 32g魔改卡等显卡可用<br />
<img src="https://upload.lcz.me/uploads/82eabc29-56ad-4ebe-9f6d-30191dc3663d.png" alt="截图 2026-06-13 14-04-51.png" class=" img-fluid img-markdown" /><br />
<img src="https://upload.lcz.me/uploads/baf3816c-634f-4b9e-9a5c-8f9f1826d232.png" alt="截图 2026-06-13 13-46-43_resized.png" class=" img-fluid img-markdown" /><br />
<img src="https://upload.lcz.me/uploads/87f89b7f-1765-4300-b258-c21a2f33aa18.png" alt="截图 2026-06-13 13-45-12.png" class=" img-fluid img-markdown" /></p>
]]></description><link>https://lcz.me/post/6579</link><guid isPermaLink="true">https://lcz.me/post/6579</guid><dc:creator><![CDATA[Ivan Yin]]></dc:creator><pubDate>Sat, 13 Jun 2026 06:06:09 GMT</pubDate></item><item><title><![CDATA[Reply to 被抡锤者种草后，我用 X99 + 4090D 48G 搭了一台本地 LLM 服务器 on Sat, 13 Jun 2026 05:41:08 GMT]]></title><description><![CDATA[<p dir="auto"><a class="plugin-mentions-user plugin-mentions-a" href="/user/ivan-yin" aria-label="Profile: Ivan-Yin">@<bdi>Ivan-Yin</bdi></a> 非常好的分享，很实用，数据详细，有截图作证，提供脚本，方便抄作业，<img src="https://lcz.me/assets/plugins/nodebb-plugin-emoji/emoji/android/1f44d.png?v=d348ca29232" class="not-responsive emoji emoji-android emoji--+1" style="height:23px;width:auto;vertical-align:middle" title="👍" alt="👍" /></p>
]]></description><link>https://lcz.me/post/6577</link><guid isPermaLink="true">https://lcz.me/post/6577</guid><dc:creator><![CDATA[terry]]></dc:creator><pubDate>Sat, 13 Jun 2026 05:41:08 GMT</pubDate></item><item><title><![CDATA[Reply to 被抡锤者种草后，我用 X99 + 4090D 48G 搭了一台本地 LLM 服务器 on Sat, 13 Jun 2026 05:39:09 GMT]]></title><description><![CDATA[<p dir="auto"><a href="https://upload.lcz.me/uploads/c0f81253-e0ad-4ddb-98bd-6df95db0e490.zip" rel="nofollow ugc">start_huihui_qwen36_v2.zip</a></p>
<p dir="auto">让 AI 写了个启动脚本，在 Ubuntu 上可以直接右键运行，压缩包已附上。</p>
<p dir="auto">里面是我这两天在本地电脑上跑通、实测可用的几组优化启动脚本，主要围绕启发提问式运行来做配置：</p>
<p dir="auto">选择 qwen3.6 27b 的 Q8 还是 Q6 量化；</p>
<p dir="auto">是否加载视觉识别组件；</p>
<p dir="auto">几组针对不同用途优化的启动参数。</p>
<p dir="auto">下面是脚本运行时的交互界面截图，供大家参考：</p>
<p dir="auto">图1：是否加载视觉模型<br />
脚本首先询问是否加载视觉模型。选 1 为纯文本模式，选 2 则加载视觉模型（使用 mmproj-model-f16.gguf）。<br />
<img src="https://upload.lcz.me/uploads/b5caa819-3acf-4f6c-b18a-0dae6824dcbc.png" alt="1.png" class=" img-fluid img-markdown" /><br />
截图：选择界面</p>
<p dir="auto">图2：选择主模型量化版本（第一次出现）<br />
选完视觉模型后，进入量化版本选择：</p>
<p dir="auto">Q8_0：精度优先，推荐日常主力</p>
<p dir="auto">Q6：速度/显存优先，自动搜索 Q6 GGUF<br />
<img src="https://upload.lcz.me/uploads/72768d96-81c5-4ce9-bb9b-284232f6e947.png" alt="2.png" class=" img-fluid img-markdown" /><br />
截图：选择界面，这里选了 1（Q8_0）</p>
<p dir="auto">图3：选择运行模式<br />
接着选择运行模式：</p>
<p dir="auto">Coding/Agent：64K，reasoning off，推荐默认</p>
<p dir="auto">Long Context：262K，reasoning off，适合大文档/大项目/知识库</p>
<p dir="auto">Creative：64K，reasoning on + budget 256，适合小说/剧本/提示词<br />
<img src="https://upload.lcz.me/uploads/e4031df8-373c-4c09-8286-da7a1baf8cc4.png" alt="3.png" class=" img-fluid img-markdown" /><br />
截图：选择界面，这里选了 1（Coding/Agent）</p>
<p dir="auto">图4：是否开启 WebUI + 端口冲突处理<br />
继续配置时，脚本还会询问是否开启 llama.cpp WebUI：</p>
<p dir="auto">关闭：推荐给 OpenCode/Agent/API 使用</p>
<p dir="auto">开启：浏览器直接访问 <a href="http://xn--IP-fr5c86lx7z:8080" rel="nofollow ugc">http://服务器IP:8080</a></p>
<p dir="auto">如果开启时 8080 端口被占用，脚本会提示检测到旧进程（如 llama-server，PID 3135），并询问是否结束该进程：<br />
<img src="https://upload.lcz.me/uploads/ffe48014-2fff-44ee-81df-9f1d2c4cfd30.png" alt="4.png" class=" img-fluid img-markdown" /><br />
<img src="https://upload.lcz.me/uploads/77a0d12f-b14c-4623-9c86-c7939bd97e65.png" alt="5.png" class=" img-fluid img-markdown" /><br />
截图：端口占用提示及 [y/N] 等待输入</p>
<p dir="auto"><img src="https://lcz.me/assets/plugins/nodebb-plugin-emoji/emoji/android/26a0.png?v=d348ca29232" class="not-responsive emoji emoji-android emoji--warning" style="height:23px;width:auto;vertical-align:middle" title="⚠" alt="⚠" />️ 使用提示：模型和 llama.cpp 的路径请根据自己电脑的实际地址修改（懒得手改的话，直接把路径要求连同文件一起扔给 Hermes 就行）。</p>
]]></description><link>https://lcz.me/post/6576</link><guid isPermaLink="true">https://lcz.me/post/6576</guid><dc:creator><![CDATA[Ivan Yin]]></dc:creator><pubDate>Sat, 13 Jun 2026 05:39:09 GMT</pubDate></item><item><title><![CDATA[Reply to 被抡锤者种草后，我用 X99 + 4090D 48G 搭了一台本地 LLM 服务器 on Fri, 12 Jun 2026 08:55:02 GMT]]></title><description><![CDATA[<blockquote>
<p dir="auto"><a class="plugin-mentions-user plugin-mentions-a" href="/user/colorfulash" aria-label="Profile: colorfulash">@<bdi>colorfulash</bdi></a> <a href="/post/6450">说</a>:</p>
<p dir="auto">请问 x99只有pcie3.0 4090原生支持pcie4.0 有影响吗</p>
</blockquote>
<p dir="auto">几乎没有影响。因为48GB显存足以将整个模型加载到GPU的显存中，后续计算不再需要通过PCIe与CPU或本地磁盘通信。PCIe速度主要影响模型初次加载的速度。但如果模型规模过大，需要频繁在显存、内存和硬盘之间交换数据（反复卸载与加载），那么PCIe 3.0的带宽就不够用了。</p>
]]></description><link>https://lcz.me/post/6473</link><guid isPermaLink="true">https://lcz.me/post/6473</guid><dc:creator><![CDATA[Ivan Yin]]></dc:creator><pubDate>Fri, 12 Jun 2026 08:55:02 GMT</pubDate></item><item><title><![CDATA[Reply to 被抡锤者种草后，我用 X99 + 4090D 48G 搭了一台本地 LLM 服务器 on Fri, 12 Jun 2026 06:17:03 GMT]]></title><description><![CDATA[<blockquote>
<p dir="auto"><a class="plugin-mentions-user plugin-mentions-a" href="/user/colorfulash" aria-label="Profile: colorfulash">@<bdi>colorfulash</bdi></a> <a href="/post/6450">说</a>:</p>
<p dir="auto">请问 x99只有pcie3.0 4090原生支持pcie4.0 有影响吗</p>
</blockquote>
<p dir="auto">单卡跑大模型没有影响</p>
]]></description><link>https://lcz.me/post/6452</link><guid isPermaLink="true">https://lcz.me/post/6452</guid><dc:creator><![CDATA[applejuice]]></dc:creator><pubDate>Fri, 12 Jun 2026 06:17:03 GMT</pubDate></item><item><title><![CDATA[Reply to 被抡锤者种草后，我用 X99 + 4090D 48G 搭了一台本地 LLM 服务器 on Fri, 12 Jun 2026 06:09:56 GMT]]></title><description><![CDATA[<p dir="auto">请问 x99只有pcie3.0 4090原生支持pcie4.0 有影响吗</p>
]]></description><link>https://lcz.me/post/6450</link><guid isPermaLink="true">https://lcz.me/post/6450</guid><dc:creator><![CDATA[colorfulash]]></dc:creator><pubDate>Fri, 12 Jun 2026 06:09:56 GMT</pubDate></item><item><title><![CDATA[Reply to 被抡锤者种草后，我用 X99 + 4090D 48G 搭了一台本地 LLM 服务器 on Fri, 12 Jun 2026 01:30:17 GMT]]></title><description><![CDATA[<p dir="auto"><a class="plugin-mentions-user plugin-mentions-a" href="/user/ivan-yin" aria-label="Profile: Ivan-Yin">@<bdi>Ivan-Yin</bdi></a></p>
<p dir="auto">这个分工流程和优化的思路很有启发.</p>
]]></description><link>https://lcz.me/post/6419</link><guid isPermaLink="true">https://lcz.me/post/6419</guid><dc:creator><![CDATA[Tony Wang]]></dc:creator><pubDate>Fri, 12 Jun 2026 01:30:17 GMT</pubDate></item><item><title><![CDATA[Reply to 被抡锤者种草后，我用 X99 + 4090D 48G 搭了一台本地 LLM 服务器 on Fri, 12 Jun 2026 00:57:19 GMT]]></title><description><![CDATA[<p dir="auto"><a class="plugin-mentions-user plugin-mentions-a" href="/user/applejuice" aria-label="Profile: applejuice">@<bdi>applejuice</bdi></a></p>
<blockquote>
<p dir="auto"><a class="plugin-mentions-user plugin-mentions-a" href="/user/applejuice" aria-label="Profile: applejuice">@<bdi>applejuice</bdi></a> <a href="/post/6402">说</a>:</p>
<blockquote>
<p dir="auto"><a class="plugin-mentions-user plugin-mentions-a" href="/user/williamlouis" aria-label="Profile: williamlouis">@<bdi>williamlouis</bdi></a> <a href="/post/6374">说</a>:</p>
<p dir="auto">4080S 16G 是个神器哈。网上都找不到的好货。让 AI 看看是不是可以变32G。<br />
很多问题你在Mac 上装个 Hermes 接入你的4090就可以了。或Mac用在线 api 。本地AI作局域网提供算力等。<br />
NAS 是需要的。可以做工作配合存储中枢。如果你需要多 AI 配合工作。用这nas 是个配置比较简单的方案。设置好只读和可写 就能让 AI看另一个 AI的工作结果，然后接力式工作。或围观审核等。手写不太详细：分区。每个区作为一个AI 算力的可写区。其他AI看需要接力的工作区，设置可读，不可写。想法告诉 Hermes 用 DeepSeek flash 就可以实现。你可以描述的更精细点就可以了。<br />
模型够用就好。这点你做的很好。不要疯狂的搞什么长上下文。够用就行。用不到搞那么长干么？对于不是需要马上就能生产的东西。没什么测试必要。现在更新太快了。无休止的测试是永远测不完的。</p>
</blockquote>
<p dir="auto">4080s 升级是自己能搞的吗？ 会不会搞完就废？ <img src="https://lcz.me/assets/plugins/nodebb-plugin-emoji/emoji/android/1f606.png?v=d348ca29232" class="not-responsive emoji emoji-android emoji--laughing" style="height:23px;width:auto;vertical-align:middle" title=":laughing:" alt="😆" /></p>
</blockquote>
<p dir="auto">这个问题我评估过，如果要升级显存，最靠谱方案是卖掉现在这张卡，新买一张魔改好的卡</p>
]]></description><link>https://lcz.me/post/6403</link><guid isPermaLink="true">https://lcz.me/post/6403</guid><dc:creator><![CDATA[Ivan Yin]]></dc:creator><pubDate>Fri, 12 Jun 2026 00:57:19 GMT</pubDate></item><item><title><![CDATA[Reply to 被抡锤者种草后，我用 X99 + 4090D 48G 搭了一台本地 LLM 服务器 on Fri, 12 Jun 2026 00:50:13 GMT]]></title><description><![CDATA[<blockquote>
<p dir="auto"><a class="plugin-mentions-user plugin-mentions-a" href="/user/williamlouis" aria-label="Profile: williamlouis">@<bdi>williamlouis</bdi></a> <a href="/post/6374">说</a>:</p>
<p dir="auto">4080S 16G 是个神器哈。网上都找不到的好货。让 AI 看看是不是可以变32G。<br />
很多问题你在Mac 上装个 Hermes 接入你的4090就可以了。或Mac用在线 api 。本地AI作局域网提供算力等。<br />
NAS 是需要的。可以做工作配合存储中枢。如果你需要多 AI 配合工作。用这nas 是个配置比较简单的方案。设置好只读和可写 就能让 AI看另一个 AI的工作结果，然后接力式工作。或围观审核等。手写不太详细：分区。每个区作为一个AI 算力的可写区。其他AI看需要接力的工作区，设置可读，不可写。想法告诉 Hermes 用 DeepSeek flash 就可以实现。你可以描述的更精细点就可以了。<br />
模型够用就好。这点你做的很好。不要疯狂的搞什么长上下文。够用就行。用不到搞那么长干么？对于不是需要马上就能生产的东西。没什么测试必要。现在更新太快了。无休止的测试是永远测不完的。</p>
</blockquote>
<p dir="auto">4080s 升级是自己能搞的吗？ 会不会搞完就废？ <img src="https://lcz.me/assets/plugins/nodebb-plugin-emoji/emoji/android/1f606.png?v=d348ca29232" class="not-responsive emoji emoji-android emoji--laughing" style="height:23px;width:auto;vertical-align:middle" title=":laughing:" alt="😆" /></p>
]]></description><link>https://lcz.me/post/6402</link><guid isPermaLink="true">https://lcz.me/post/6402</guid><dc:creator><![CDATA[applejuice]]></dc:creator><pubDate>Fri, 12 Jun 2026 00:50:13 GMT</pubDate></item><item><title><![CDATA[Reply to 被抡锤者种草后，我用 X99 + 4090D 48G 搭了一台本地 LLM 服务器 on Fri, 12 Jun 2026 00:45:21 GMT]]></title><description><![CDATA[<p dir="auto">作为一个喜欢“玩”电脑30多年的老玩家，从第一台80486到现在家里堆满洋垃圾和各种稀奇古怪的电脑，真心感谢坛主的分享，让我最近找到了新的兴趣点——本地AI部署。</p>
<p dir="auto">也感谢各位大佬的指点。上面那个分享帖，是我昨晚让 Hermes Agent 写的自动测试脚本，把整个对话过程导出成 Markdown 后又做了一些加工。今天自己仔细读了一遍，感觉还是有些地方不够顺畅，观点也没表达得很清楚。回头有空我再补一些照片和截图上来。</p>
]]></description><link>https://lcz.me/post/6400</link><guid isPermaLink="true">https://lcz.me/post/6400</guid><dc:creator><![CDATA[Ivan Yin]]></dc:creator><pubDate>Fri, 12 Jun 2026 00:45:21 GMT</pubDate></item><item><title><![CDATA[Reply to 被抡锤者种草后，我用 X99 + 4090D 48G 搭了一台本地 LLM 服务器 on Thu, 11 Jun 2026 22:14:46 GMT]]></title><description><![CDATA[<p dir="auto">@Ivan Yin 刚好我的硬件分工和你有些类似，分享一下我的经验。</p>
<p dir="auto">关于"什么时候用什么"的问题，我自己的分级方案：</p>
<p dir="auto"><strong>第一梯队（日常高频，必须本地）：</strong></p>
<ul>
<li>代码辅助（补全、debug、重构）—— 4080S 16G + Qwen3.6-14B Q4，延迟低到几乎无感</li>
<li>ComfyUI 跑图/短视频 —— 4080S 做主力，4090D 做后备（长视频/大模型用 4090D）</li>
<li>轻量 RAG / 知识库检索 —— 本地模型私密性好，4090D 推 Qwen3.6-27B</li>
</ul>
<p dir="auto"><strong>第二梯队（本地能跑但看场景）：</strong></p>
<ul>
<li>长上下文分析（128K+）—— 4090D 48G 优势明显，本地跑 Qwen3.6-27B Q4 可以开到 96K 上下文</li>
<li>Agent / 自动化 —— Hermes + DeepSeek Flash API（Mac mini 做 AI 工作台非常适合这个，延迟可控）</li>
</ul>
<p dir="auto"><strong>第三梯队（果断走 API）：</strong></p>
<ul>
<li>复杂推理 / 数学 / 代码生成 —— DeepSeek V4 Flash/Pro</li>
<li>多轮长对话（50+ 轮）—— API 没有上下文窗口焦虑</li>
<li>大批量并发任务 —— API 的吞吐量远大于单卡本地</li>
</ul>
<p dir="auto">核心原则：<strong>延迟敏感 + 隐私敏感 → 本地；吞吐敏感 + 简单推理 → API。</strong> 你把 Mac mini 接 Hermes 挂 DeepSeek 做 Agent 工作台，4090D 做长上下文本地推理，4080S 保持游戏+ComfyUI，这套分工其实已经很合理了。优化的重点不是重新分配硬件，而是把你的工作流里哪些步骤走本地、哪些走 API 理清楚，然后用 Hermes 的 router 自动分流。</p>
]]></description><link>https://lcz.me/post/6391</link><guid isPermaLink="true">https://lcz.me/post/6391</guid><dc:creator><![CDATA[Xiaote]]></dc:creator><pubDate>Thu, 11 Jun 2026 22:14:46 GMT</pubDate></item><item><title><![CDATA[Reply to 被抡锤者种草后，我用 X99 + 4090D 48G 搭了一台本地 LLM 服务器 on Thu, 11 Jun 2026 17:50:28 GMT]]></title><description><![CDATA[<p dir="auto">上一些照片截图，版主给加精。</p>
]]></description><link>https://lcz.me/post/6384</link><guid isPermaLink="true">https://lcz.me/post/6384</guid><dc:creator><![CDATA[terry]]></dc:creator><pubDate>Thu, 11 Jun 2026 17:50:28 GMT</pubDate></item><item><title><![CDATA[Reply to 被抡锤者种草后，我用 X99 + 4090D 48G 搭了一台本地 LLM 服务器 on Thu, 11 Jun 2026 16:45:49 GMT]]></title><description><![CDATA[<p dir="auto">4080S 16G 是个神器哈。网上都找不到的好货。让 AI 看看是不是可以变32G。<br />
很多问题你在Mac 上装个 Hermes 接入你的4090就可以了。或Mac用在线 api 。本地AI作局域网提供算力等。<br />
NAS 是需要的。可以做工作配合存储中枢。如果你需要多 AI 配合工作。用这nas 是个配置比较简单的方案。设置好只读和可写 就能让 AI看另一个 AI的工作结果，然后接力式工作。或围观审核等。手写不太详细：分区。每个区作为一个AI 算力的可写区。其他AI看需要接力的工作区，设置可读，不可写。想法告诉 Hermes 用 DeepSeek flash 就可以实现。你可以描述的更精细点就可以了。<br />
模型够用就好。这点你做的很好。不要疯狂的搞什么长上下文。够用就行。用不到搞那么长干么？对于不是需要马上就能生产的东西。没什么测试必要。现在更新太快了。无休止的测试是永远测不完的。</p>
]]></description><link>https://lcz.me/post/6374</link><guid isPermaLink="true">https://lcz.me/post/6374</guid><dc:creator><![CDATA[williamlouis]]></dc:creator><pubDate>Thu, 11 Jun 2026 16:45:49 GMT</pubDate></item></channel></rss>