被抡锤者种草后，我用 X99 + 4090D 48G 搭了一台本地 LLM 服务器

Ivan Yin

这套东西目前已经能用了，但我觉得还没有到“完全榨干”的状态。后面主要想继续看两个问题。

1. 流程和资源还能怎么优化

现在硬件分工大概清楚了：

4090D：本地 LLM 后端
4080S：游戏 + ComfyUI
Mac mini：API 工作台
NAS：存储和轻服务

但硬件分工清楚，不代表流程已经最优。

我现在更想优化的是“怎么调用”：

什么时候用本地 Qwen3.6
什么时候用 DeepSeek
什么时候用其他在线 API
什么时候让 4080S 跑 ComfyUI
什么时候把资料放到 NAS
什么时候开 64K
什么时候切 262K

这部分其实比单纯调模型参数更影响日常体验。

目前想到的方向有几个：

1. 给本地 Qwen3.6 做固定模式
   coding、long-context、creative，不同模式对应不同参数。

2. 给 Mac mini 配好统一 API 入口
   本地模型、DeepSeek、其他在线模型都从同一套工具里调。

3. 不要什么都塞进 262K
   能用项目摘要、RAG、分块资料解决的，就不要每次硬塞长上下文。

4. ComfyUI 和 LLM 彻底分开
   4080S 该打游戏打游戏，该画图画图，不被 LLM 常驻占显存。

5. NAS 做资料和模型仓库
   模型、工作流、输出图、代码项目、资料库集中管理，别散在几台机器里。

也就是说，下一步未必是继续买硬件，而是把这些机器之间的调用链打通。

硬件只是地基，真正好不好用，还是看工作流。

2. 4090D 跑本地模型是不是已经到极限

这个问题我现在的看法是：还没有到绝对极限，但已经比较接近“单卡 48G 跑 27B 高量化长上下文”的舒适区上限。

以现在这套 Qwen3.6-27B Q8_0 来看，4090D 48G 已经能比较舒服地跑：

Q8_0 主模型
KV q8_0
MTP N=2
64K 日常上下文
262K 长上下文备用
reasoning 按场景开关

262K 下显存大概 40GB 出头，还有余量。
这说明它不是贴着显存墙在跑。

但这个余量也不是无限的。只要继续往上加东西，比如：

更大模型
更高精度 KV
更多并发
更长上下文
视觉模型
多个服务同时常驻

48G 很快也会开始紧。

所以我觉得要分两层看。

如果目标是 Qwen3.6-27B Q8_0，本地 coding、agent、写作、长文档处理，那么这张 4090D 48G 已经很舒服了。再继续调，主要是小幅优化速度、显存和流程，不会有本质飞跃。

如果目标变成更大模型，比如 35B、70B，或者想同时跑多模型、多并发、多模态，那单张 4090D 48G 就还不是终点。那就不是参数优化问题，而是显存规模和多卡架构问题了。

所以我暂时不急着继续堆硬件。
这张 4090D 48G 现在最该做的不是继续跑分，而是稳定服务。

先把 Qwen3.6 跑顺，把 Mac mini 的 API 工作台打通，把 4080S 的游戏和 ComfyUI 保留下来，把 NAS 的资料管理理顺。等这些都顺了，再看下一步到底是换模型、加卡，还是继续优化流程。

williamlouis

4080S 16G 是个神器哈。网上都找不到的好货。让 AI 看看是不是可以变32G。
很多问题你在Mac 上装个 Hermes 接入你的4090就可以了。或Mac用在线 api 。本地AI作局域网提供算力等。
NAS 是需要的。可以做工作配合存储中枢。如果你需要多 AI 配合工作。用这nas 是个配置比较简单的方案。设置好只读和可写就能让 AI看另一个 AI的工作结果，然后接力式工作。或围观审核等。手写不太详细：分区。每个区作为一个AI 算力的可写区。其他AI看需要接力的工作区，设置可读，不可写。想法告诉 Hermes 用 DeepSeek flash 就可以实现。你可以描述的更精细点就可以了。
模型够用就好。这点你做的很好。不要疯狂的搞什么长上下文。够用就行。用不到搞那么长干么？对于不是需要马上就能生产的东西。没什么测试必要。现在更新太快了。无休止的测试是永远测不完的。

terry

上一些照片截图，版主给加精。

Xiaote

@Ivan Yin 刚好我的硬件分工和你有些类似，分享一下我的经验。

关于"什么时候用什么"的问题，我自己的分级方案：

第一梯队（日常高频，必须本地）：

代码辅助（补全、debug、重构）—— 4080S 16G + Qwen3.6-14B Q4，延迟低到几乎无感
ComfyUI 跑图/短视频 —— 4080S 做主力，4090D 做后备（长视频/大模型用 4090D）
轻量 RAG / 知识库检索 —— 本地模型私密性好，4090D 推 Qwen3.6-27B

第二梯队（本地能跑但看场景）：

长上下文分析（128K+）—— 4090D 48G 优势明显，本地跑 Qwen3.6-27B Q4 可以开到 96K 上下文
Agent / 自动化 —— Hermes + DeepSeek Flash API（Mac mini 做 AI 工作台非常适合这个，延迟可控）

第三梯队（果断走 API）：

复杂推理 / 数学 / 代码生成 —— DeepSeek V4 Flash/Pro
多轮长对话（50+ 轮）—— API 没有上下文窗口焦虑
大批量并发任务 —— API 的吞吐量远大于单卡本地

核心原则：延迟敏感 + 隐私敏感 → 本地；吞吐敏感 + 简单推理 → API。 你把 Mac mini 接 Hermes 挂 DeepSeek 做 Agent 工作台，4090D 做长上下文本地推理，4080S 保持游戏+ComfyUI，这套分工其实已经很合理了。优化的重点不是重新分配硬件，而是把你的工作流里哪些步骤走本地、哪些走 API 理清楚，然后用 Hermes 的 router 自动分流。

Ivan Yin

作为一个喜欢“玩”电脑30多年的老玩家，从第一台80486到现在家里堆满洋垃圾和各种稀奇古怪的电脑，真心感谢坛主的分享，让我最近找到了新的兴趣点——本地AI部署。

也感谢各位大佬的指点。上面那个分享帖，是我昨晚让 Hermes Agent 写的自动测试脚本，把整个对话过程导出成 Markdown 后又做了一些加工。今天自己仔细读了一遍，感觉还是有些地方不够顺畅，观点也没表达得很清楚。回头有空我再补一些照片和截图上来。

applejuice

@williamlouis 说:

4080S 16G 是个神器哈。网上都找不到的好货。让 AI 看看是不是可以变32G。
很多问题你在Mac 上装个 Hermes 接入你的4090就可以了。或Mac用在线 api 。本地AI作局域网提供算力等。
NAS 是需要的。可以做工作配合存储中枢。如果你需要多 AI 配合工作。用这nas 是个配置比较简单的方案。设置好只读和可写就能让 AI看另一个 AI的工作结果，然后接力式工作。或围观审核等。手写不太详细：分区。每个区作为一个AI 算力的可写区。其他AI看需要接力的工作区，设置可读，不可写。想法告诉 Hermes 用 DeepSeek flash 就可以实现。你可以描述的更精细点就可以了。
模型够用就好。这点你做的很好。不要疯狂的搞什么长上下文。够用就行。用不到搞那么长干么？对于不是需要马上就能生产的东西。没什么测试必要。现在更新太快了。无休止的测试是永远测不完的。

4080s 升级是自己能搞的吗？会不会搞完就废？

Ivan Yin

@applejuice

@applejuice 说:

@williamlouis 说:

4080S 16G 是个神器哈。网上都找不到的好货。让 AI 看看是不是可以变32G。
很多问题你在Mac 上装个 Hermes 接入你的4090就可以了。或Mac用在线 api 。本地AI作局域网提供算力等。
NAS 是需要的。可以做工作配合存储中枢。如果你需要多 AI 配合工作。用这nas 是个配置比较简单的方案。设置好只读和可写就能让 AI看另一个 AI的工作结果，然后接力式工作。或围观审核等。手写不太详细：分区。每个区作为一个AI 算力的可写区。其他AI看需要接力的工作区，设置可读，不可写。想法告诉 Hermes 用 DeepSeek flash 就可以实现。你可以描述的更精细点就可以了。
模型够用就好。这点你做的很好。不要疯狂的搞什么长上下文。够用就行。用不到搞那么长干么？对于不是需要马上就能生产的东西。没什么测试必要。现在更新太快了。无休止的测试是永远测不完的。

4080s 升级是自己能搞的吗？会不会搞完就废？

这个问题我评估过，如果要升级显存，最靠谱方案是卖掉现在这张卡，新买一张魔改好的卡

Tony Wang

@Ivan-Yin

这个分工流程和优化的思路很有启发.

colorfulash

请问 x99只有pcie3.0 4090原生支持pcie4.0 有影响吗

applejuice

@colorfulash 说:

请问 x99只有pcie3.0 4090原生支持pcie4.0 有影响吗

单卡跑大模型没有影响

Ivan Yin

@colorfulash 说:

请问 x99只有pcie3.0 4090原生支持pcie4.0 有影响吗

几乎没有影响。因为48GB显存足以将整个模型加载到GPU的显存中，后续计算不再需要通过PCIe与CPU或本地磁盘通信。PCIe速度主要影响模型初次加载的速度。但如果模型规模过大，需要频繁在显存、内存和硬盘之间交换数据（反复卸载与加载），那么PCIe 3.0的带宽就不够用了。

Ivan Yin

start_huihui_qwen36_v2.zip

让 AI 写了个启动脚本，在 Ubuntu 上可以直接右键运行，压缩包已附上。

里面是我这两天在本地电脑上跑通、实测可用的几组优化启动脚本，主要围绕启发提问式运行来做配置：

选择 qwen3.6 27b 的 Q8 还是 Q6 量化；

是否加载视觉识别组件；

几组针对不同用途优化的启动参数。

下面是脚本运行时的交互界面截图，供大家参考：

图1：是否加载视觉模型
脚本首先询问是否加载视觉模型。选 1 为纯文本模式，选 2 则加载视觉模型（使用 mmproj-model-f16.gguf）。

截图：选择界面

图2：选择主模型量化版本（第一次出现）
选完视觉模型后，进入量化版本选择：

Q8_0：精度优先，推荐日常主力

Q6：速度/显存优先，自动搜索 Q6 GGUF

截图：选择界面，这里选了 1（Q8_0）

图3：选择运行模式
接着选择运行模式：

Coding/Agent：64K，reasoning off，推荐默认

Long Context：262K，reasoning off，适合大文档/大项目/知识库

Creative：64K，reasoning on + budget 256，适合小说/剧本/提示词

截图：选择界面，这里选了 1（Coding/Agent）

图4：是否开启 WebUI + 端口冲突处理
继续配置时，脚本还会询问是否开启 llama.cpp WebUI：

关闭：推荐给 OpenCode/Agent/API 使用

开启：浏览器直接访问 http://服务器IP:8080

如果开启时 8080 端口被占用，脚本会提示检测到旧进程（如 llama-server，PID 3135），并询问是否结束该进程：

截图：端口占用提示及 [y/N] 等待输入

️ 使用提示：模型和 llama.cpp 的路径请根据自己电脑的实际地址修改（懒得手改的话，直接把路径要求连同文件一起扔给 Hermes 就行）。

terry

@Ivan-Yin 非常好的分享，很实用，数据详细，有截图作证，提供脚本，方便抄作业，

Ivan Yin

Q8在我的coding优化启动脚本下，平均生成为43t/s,体感可用。
显存占用不到32G,4080s 32g魔改卡等显卡可用
截图 2026-06-13 14-04-51.png
截图 2026-06-13 13-46-43_resized.png
截图 2026-06-13 13-45-12.png

Ivan Yin

同样参数下，调用q6量化模型，速度提升10t/s。显存占用25584MiB（刚24g左右），再稍微优化上下文，也适合24g显存的朋友使用（为求保险，可以关闭桌面ui）。

截图 2026-06-13 14-00-40.png
截图 2026-06-13 14-00-45.png
截图 2026-06-13 14-03-27.png

Ivan Yin

上面只是平时用着的速度感受，测得不严谨，大家参考一下就好，别太当真。真要精确对比，可以按主贴里说的，让 Hermes 写代码跑测试。

日常用下来，qwen3.6 27b 的 Q6 量化版确实性价比最高，速度和精度都不错，还能同时跑 ComfyUI 或者其他本地模型，不卡。Q8 的话速度慢个两成左右，但精度更好，适合半夜挂着让它自己 coding。

Ivan Yin

在chatgpt中提问q8、q6精度问题的核心观点如下，供大家参考：

结论：Qwen 3.6 27B 的 Q8 和 Q6，在“可感知精度”上差距不大；Q6_K 已经非常接近满血，Q8_0 更接近 BF16/FP16，主要优势体现在长尾稳定性、复杂代码、长上下文、多轮工具调用这些高压场景。

1. 本质区别：不是“智商档位”，而是权重还原误差不同

量化就是把原始 BF16/FP16 权重压缩成低 bit 表示。llama.cpp 官方说明里也明确说，量化会降低权重精度，可能引入准确率损失，通常用 perplexity、KLD 等指标衡量。(GitHub)

对你现在用的 GGUF 来说：

版本	精度含义	对模型输出的影响
Q8_0	约 8-bit 权重量化	最接近原始 BF16/FP16，概率分布扰动最小
Q6_K	约 6-bit K-quant	压缩更强，但仍属于高质量量化，通常很接近原模型
Q4/Q5	更激进压缩	可用，但更容易在复杂推理、代码、长上下文中出错

所以 Q8 不是让模型“更聪明”，而是更少破坏原模型已经学到的能力；Q6 也不是明显降智，而是略微增加了权重误差。

2. 用现有 Qwen3.6-27B GGUF 量化指标看：Q8 确实更接近满血，但 Q6 已经很高

一个 Qwen3.6-27B GGUF 量化仓库给出的相对 BF16/full precision 指标里，Q6_K 和 Q8_0 的差距如下：(Hugging Face)

指标	Q6_K	Q8_0	怎么理解
Same Top P	97.34%	98.38%	Q8 的 token 概率分布更接近满血
Mean KLD	0.0056	0.0034	Q8 平均分布偏移更小
99.9% KLD	0.50	0.20	Q8 长尾极端错误概率更低
RMS Δp	1.988%	1.538%	Q8 输出概率整体扰动更小
Mean PPL	6.924	6.914	两者都很接近 BF16 约 6.900

这组数据可以直接解释：Q8 比 Q6 精度更高，但不是断崖式差距，而是“边缘稳定性”和“长尾可靠性”的提升。

最关键的是 99.9% KLD：Q8_0 为 0.20，Q6_K 为 0.50。这个差距说明 Q8 在少数高敏感 token 上更稳。平时聊天你未必感知得到，但写代码、工具调用、长上下文检索、数学推理时，恰恰容易被这些“少数关键 token”影响。

3. 实际体感：Q6 大多数时候够用，Q8 主要减少“莫名其妙的小错”

你日常用 Qwen3.6 27B 做这些事情时，差异大概是这样：

普通问答、总结、润色、公文初稿：
Q6_K 和 Q8_0 差距很小。很多时候你盲测不一定能稳定分辨。文本流畅度、语气、一般知识问答基本不会出现明显差别。

代码生成、改 bug、项目级理解：
Q8 更稳一点。不是说 Q6 不会写代码，而是 Q6 更容易在边缘处犯小错，比如漏一个参数、误判一个库 API、JSON schema 细节不准、复杂文件关系里少看一层。Qwen3.6-27B 官方定位里也强调 agentic coding、repository-level reasoning、tool use 等能力，这类能力对 token 级稳定性更敏感。(Hugging Face)

长上下文，尤其 128K—262K：
Q8 更值得用。Qwen3.6-27B 的默认上下文是 262,144 tokens，官方还建议复杂任务至少保持 128K 以保留 thinking 能力。(Hugging Face) 长上下文下，模型需要在大量信息中维持注意力、引用关系和中间推理，Q8 的低扰动会更有价值。

数学、逻辑、精确推理：
Q8 有优势，但不是质变。量化误差不会直接改变模型结构，也不会凭空增加推理能力；它只是减少原模型 logits 被扰动的程度。对于“下一步 token 很明确”的问题，Q6 与 Q8 几乎一样；对于“多个候选 token 概率很接近”的问题，Q6 更可能把模型推向另一条错误路径。

小说、角色扮演、长文续写：
Q6 已经很好。Q8 的优势更多是长篇一致性、人物设定不漂、前文细节保持更稳，但体感差异通常小于采样参数、提示词、上下文管理的影响。

4. 对你这台 4090D 48G 的建议

按“精度优先”排序，我会这样建议：

第一选择：Q8_0 + Q8 KV
适合：代码、长上下文、公文材料精修、复杂推理、重要输出。
这是你显存允许时最稳的本地 GGUF 方案。

第二选择：Q6_K + Q8 KV
适合：日常主力、速度优先但不想明显牺牲能力。
从精度角度看，Q6_K 已经接近满血，很多时候比你想象中稳。尤其你已经观察到 Q8 比 Q6 慢约 30%，那么 Q6_K 是很合理的日常档。

不建议为了模型权重 Q8，而把 KV cache 降得太狠。
长上下文场景里，KV 精度、上下文长度、RoPE/YaRN 设置、prompt 结构，都会影响最终质量。很多情况下，Q6_K 权重 + Q8_KV 比 Q8 权重 + 激进 KV 压缩 更均衡。

5. 一句话判断

对 Qwen3.6 27B：

Q6_K 是“高质量实用档”，能力基本保住；Q8_0 是“接近满血保险档”，主要提升复杂任务、长上下文、代码和工具调用的稳定性。

你要是本地长期作为 coding / 公文 / 知识库主力，我建议：默认 Q6_K，遇到重要代码、多文件重构、长上下文材料、需要一次性成功的任务，切 Q8_0。

Ivan Yin

llama.cpp有更新，与mtp性能相关，我编译新版本后比较一下
截图 2026-06-13 14-34-33.png

在平时使用时，没有什么区别，q8依然还是43左右t/s
截图 2026-06-13 16-58-07.png 截图 2026-06-13 16-58-11.png

williamlouis

@applejuice 找个你本地的能干的工作室给你搞。换显存自己搞什么？不过升级意义很大。变32G就是神器一件了。

williamlouis

京东我看见有以旧换新的商铺就你把16G给他。它直接给你一块 32G的。变相的少折腾升级。当然到手的就是别人的16G魔改后的到你手了。你的后续也是魔改了给别人。