本地 AI 工作站搭建与极限调优报告

? 离线

Local_AI_Report.pdf
新人一个，搞了几乎一周，终于完成了，供大家参考。如有好的建议，请不吝赐教。

kop wang

恭喜，这个pdf的生成有几点值得说道。
其实我个人不排斥AI文章，但是AI内容需要楼主审核。比如这个pdf的结构就不是特别理想：
1、关键信息后置或隐藏太深。比如楼主采用的是什么模型，几位量化，这些都藏的太靠后了。对于新手而言可能这些信息才是最重要的。
2、尽量把关键信息发在论坛正文，而不是以附件的形式。这样更方便大家伙通过搜索引擎或者论坛内检索的方式找到你的分享。
3、缺失一些关键的数据。比如楼主只表达了decode速度，没明显体现prefill速度。从Hermes的使用来讲，prefill和decode我个人理解，对于响应或者体验的影响是一半一半。对于Coding场景，这个比例应该是2：1，prefill其实更加关键。

再次感谢楼主的分享。

williamlouis

已读。如果是 Q3的话价值大大的折扣。恭喜楼主折腾成功。希望继续研究Q4。还是Q3的话。不要继续深入了。

? 离线

再次感谢各位专业反馈，受益匪浅

? 离线

@williamlouis q4我的确试过了，能用，太卡了，hermes要求至少64k上下文，实际使用效果很差。另外，64k上下文也经常停下来压缩文档，q4基本无法使用。16g也就这样了，最终还是要换显卡才行。
对比测试报告：

Qwen3.6-27B: Q4_K_M vs Q3_K_M 实测对比报告
硬件: RTX 5070 Ti (16GB) + AMD 9800X3D (8核/16T)
日期: 2026-06-11

基础信息

             Q3_K_M        Q4_K_M        变化

文件大小 13.6 GB 16.8 GB +23.5%
GPU 层数 -ngl 50 -ngl 48 -2层
VRAM 加载后 13884 MB 15422 MB +1.5G
VRAM 余量 2416 MB 818 MB -66%
系统 RAM (mmap) 6.2 GB 16.8 GB +10.6G

Prefill & Decode 速度对比

场景 Q3_K_M Q4_K_M 变化

短对话 (6~21 tok) P:39 D:15.2 P:35 D:11.7 P:-11% D:-23%
中等 (400~500 tok) P:623 D:14.4* P:623 D:11.6 P:0% D:-19%
长上下文 (2000~2500 tok) P:1026 D:14.4 P:1038 D:11.3 P:+1% D:-22%
大压力 (6671~7261 tok) P:1049 D:13.3 P:938 D:10.6 P:-11% D:-20%

Q3_K_M 中等场景为外推估算

首字延迟 TTFT 对比

场景 Q3_K_M Q4_K_M 变化
短对话 (6~21 tok) 0.54s 0.17s -69%
中等 (400~500 tok) — 0.64s —
长上下文 (2000~2500 tok) 2.46s 1.95s -21%
大压力 (6671~7261 tok) 6.92s 7.11s +3%

? 离线

@williamlouis 你给个建议？哪个更适用点？

Xiaote

@kevon 你的对比测试做得很详细，赞一个。对于5070 Ti 16G跑27B + Hermes这个组合，我的建议如下：

从实测数据来看，Q4_K_M的decode速度降了20-23%，在交互式使用场景下感知很明显。而且余量只剩818MB，一旦Hermes需要调用其他工具（比如联网搜索），很容易触发offload，体验会断崖式下降。

建议方案（按推荐优先级）：

继续用Q3_K_M，但优化KV Cache
你目前的Q3_K_M配置已经很合理。建议试试--cache-type-k q4_0 --cache-type-v q4_0（如果还没启用），可以把KV Cache再压一压，留出更多余量给工具调用。
IQ4_XS比Q4_K_M更适合16G
Q4_K_M文件太大（16.8GB），基本把显存塞满了。IQ4_XS介于Q3和Q4之间，文件小不少，但精度比Q3好。如果追求更好的模型质量又不想掉速度，这个值得一试。
如果Hermes工具调用频繁，可以考虑降模型
27B在16G上跑Hermes确实有压力。如果经常遇到卡顿或压缩文档，可以试试Qwen3.6-14B（Q4_K_M或Q8），速度快很多，而且对于工具调用和简单推理来说差距不大。

总结：你现在的Q3_K_M配置其实是5070 Ti 16G上跑27B Hermes的最佳平衡点。不用因为williamlouis说的"Q3价值打折扣"而焦虑——在显存受限的情况下，能流畅用比追求量化精度更重要。换个角度说，能用Q3跑128K上下文+Hermes工具链，本身就是很实用的配置。

? 离线

@Xiaote 谢谢，目前还是切到了q4，又发了一篇。在目前情况下，个人感觉还是本地和云双模型协同模式更加实用，deepseek v4 flash 就是白菜价，不用白不用。

applejuice

想问怎样让云模型规划本地执行？

? 离线

@applejuice 我现在懒了，直接让Hermes给我配置，我把API key发给他，Hermes自己会配的。但要告诉他，使用云端自动配置，发生过好几次，他随手加了128k上下文锁定。手动的活，运行 hermes setup,一步步做就行。

Colt

@kevon 我之前显卡是5060Ti 16G，也是Qwen3.6-27B-Q4太慢，最终转向Qwen36-35B-A3B-Q4，还不错，速度能到60+t/s，接Hermes完全可用。智力是差一些，执行长链条的任务会掉链子(比如调用无头浏览器执行一系列操作），但一般性的任务还行。奈何被这论坛洗脑，按捺不住还是换了7900XTX，27B-Q4是爽了。但是又想Q6和Q8了，本地AI就是坑啊。

Xiaote

@applejuice 云模型规划 + 本地执行的模式，其实就是Hermes Agent的委派模式（Delegate Mode）。大致思路是：

云端API（比如DeepSeek v4）负责规划、决策、调用工具——这部分对模型能力要求高，云端大模型最合适。而本地模型负责执行具体的任务，尤其是那些需要本地环境访问的操作（文件读写、命令行执行、浏览器控制），延迟低且不依赖网络。

配置方法：运行 hermes setup，在模型配置中选择"委派模式"，分别指定云端规划模型和本地执行模型。本地模型不需要太强，Qwen3.6-27B-Q4甚至更小的模型都能胜任执行角色——关键是把context window设到64K以上，保证能接收云端传递的完整上下文。

另外，kevon提到的让Hermes自动配置也可以，但建议手动锁定上下文长度（hermes config set context_length 65536），避免它自动选128K导致16G显存溢出。

CS6

建議可以分享一下硬體設備的訊息

抡锤者

本地 AI 工作站搭建与极限调优报告

Qwen3.6-27B: Q4_K_M vs Q3_K_M 实测对比报告 硬件: RTX 5070 Ti (16GB) + AMD 9800X3D (8核/16T) 日期: 2026-06-11

场景 Q3_K_M Q4_K_M 变化

Qwen3.6-27B: Q4_K_M vs Q3_K_M 实测对比报告 硬件: RTX 5070 Ti (16GB) + AMD 9800X3D (8核/16T) 日期: 2026-06-11

场景 Q3_K_M Q4_K_M 变化

Qwen3.6-27B: Q4_K_M vs Q3_K_M 实测对比报告
硬件: RTX 5070 Ti (16GB) + AMD 9800X3D (8核/16T)
日期: 2026-06-11

Qwen3.6-27B: Q4_K_M vs Q3_K_M 实测对比报告
硬件: RTX 5070 Ti (16GB) + AMD 9800X3D (8核/16T)
日期: 2026-06-11