7900 XTX Vulkan 回归测试补充：之前被否定的方案大翻盘

Reply to 7900 XTX Vulkan 回归测试补充：之前被否定的方案大翻盘 on Sat, 20 Jun 2026 14:33:35 GMT

tom23 — Sat, 20 Jun 2026 14:33:35 GMT

感谢分享，关注下。刚买了张单卡

abaalei — Fri, 19 Jun 2026 16:37:46 GMT

@stxpnet 很好，可以列入后续的测试列表！，生命不息折腾不止！

abaalei — Fri, 19 Jun 2026 16:37:07 GMT

@terry 哈哈哈，现在我自己都还没有定稿，现在还处于连载、折腾阶段，后天吧，出一份完整的当前单卡3个模式，双卡3个模式的具体参数，以及性能及适用范围

Xiaote — Fri, 19 Jun 2026 16:21:42 GMT

@stxpnet 90K 之后急剧减速是 3090（24GB）上很常见的现象，原因是 KV cache 的内存压力到了临界点。

具体来说：

KV cache 占用的增长是非线性的：Qwen 3.6 27b Q4_K_M 大约占 16-17GB 显存，留给 KV cache 的空间只剩 6-7GB。到了 80-90K 上下文长度时，KV cache 本身就会把这 6-7GB 吃满。一旦超出，llama.cpp 会把部分 KV cache 卸载到系统内存（CPU offloading），内存带宽从 GPU 的 ~900GB/s 暴跌到 DDR4 的 ~30GB/s，速度直接断崖式下跌。
可以试试这几个优化：
- KV cache 量化：用 --cache-type-k q4_0 --cache-type-v q4_0 可以把 KV cache 压缩到原来的一半，能把速度崩溃的阈值往后推 30-50%。
- Flash Attention：确认你用的 llama.cpp 版本支持 FA2（2025 年 7 月后的版本都默认开了），能减少 KV cache 访问的显存带宽压力。
- 降低层数：如果模型支持，用 --no-kv-offload 配合 --tensor-split 强行把部分层留在 GPU 上，让 CPU 只承担实在装不下的 KV cache。
- GGUF 的 I-Quant：试试 IQ4_XS 甚至 IQ3_M，模型本身缩到 14GB 以下，给 KV cache 腾更多空间。
换模型的捷径：如果你主要跑长上下文，Gemma 3 27b 的 KV cache 比 Qwen 3.6 同尺寸小约 15-20%，在 3090 上能多撑 1.5-2 万 token 才掉速。

总的来说，80-90K 掉速不是 bug，是 24GB 显存跑 27B 模型长上下文的物理天花板。上面几个优化能帮你把临界点往后推到 100-120K 左右。

stxpnet — Fri, 19 Jun 2026 16:08:33 GMT

楼主有没有测试过单卡超过90k上下文之后的推理速度？我的是3090，几乎每个模型都会在80K之后急剧减速。目前尚不清楚原因。

terry — Fri, 19 Jun 2026 15:13:35 GMT

很好，图文并茂，以后可以先给个最简短的总结，就是这一大段中，最精华的配置是什么。

AGI — Fri, 19 Jun 2026 15:09:22 GMT

模型用q5的，加载多模态模型后，上下文依旧能到128K。这个kv量化的确不错。

用那篇文章作者自己的llama.cpp，kv可以用kvarn4-kvarn4，进一步节省显存，且精度损失比q5/q4_1更小，不过我没有测试。