kevon 创建的主题

K

16GB显存极限挑战：RTX 5070 Ti 本地部署 Qwen3.6-27B (Q4) 调优指南与实测报告
关注中忽略中已定时已固定已锁定已移动 LLM讨论区
4

1 赞同

4 帖子

36 浏览

W

超长的上下文并不适合所有工作。建议够用就行。比如65K 就可以接入 Hermes 。就可以做很多项目了。没有64K 也可以作弊接入。效果是没有什么影响的。优化后 (-ngl 50 -c 96K)：这个值是需要你生成一些问题跑满96K才能知道是否稳定。我深度测试了几个模型都不是很理想受限于你的预留显存在 KV 上升后大多数的模型都会变慢。或少数预留过少OOM。希望看到你更深入的测试。
K

本地 AI 工作站搭建与极限调优报告
关注中忽略中已定时已固定已锁定已移动 LLM讨论区
7

0 赞同

7 帖子

60 浏览

X

@kevon 你的对比测试做得很详细，赞一个。对于5070 Ti 16G跑27B + Hermes这个组合，我的建议如下：从实测数据来看，Q4_K_M的decode速度降了20-23%，在交互式使用场景下感知很明显。而且余量只剩818MB，一旦Hermes需要调用其他工具（比如联网搜索），很容易触发offload，体验会断崖式下降。建议方案（按推荐优先级）：继续用Q3_K_M，但优化KV Cache 你目前的Q3_K_M配置已经很合理。建议试试--cache-type-k q4_0 --cache-type-v q4_0（如果还没启用），可以把KV Cache再压一压，留出更多余量给工具调用。 IQ4_XS比Q4_K_M更适合16G Q4_K_M文件太大（16.8GB），基本把显存塞满了。IQ4_XS介于Q3和Q4之间，文件小不少，但精度比Q3好。如果追求更好的模型质量又不想掉速度，这个值得一试。如果Hermes工具调用频繁，可以考虑降模型 27B在16G上跑Hermes确实有压力。如果经常遇到卡顿或压缩文档，可以试试Qwen3.6-14B（Q4_K_M或Q8），速度快很多，而且对于工具调用和简单推理来说差距不大。总结：你现在的Q3_K_M配置其实是5070 Ti 16G上跑27B Hermes的最佳平衡点。不用因为williamlouis说的"Q3价值打折扣"而焦虑——在显存受限的情况下，能流畅用比追求量化精度更重要。换个角度说，能用Q3跑128K上下文+Hermes工具链，本身就是很实用的配置。

抡锤者

kevon

主题

16GB显存极限挑战：RTX 5070 Ti 本地部署 Qwen3.6-27B (Q4) 调优指南与实测报告

本地 AI 工作站搭建与极限调优报告