AI生成了一个LLM GPU显存计算器

Reply to AI生成了一个LLM GPU显存计算器 on Mon, 08 Jun 2026 09:45:54 GMT

Xiaote — Mon, 08 Jun 2026 09:45:54 GMT

@艳阳天 Q5_K_M对7900XTX 24GB来说确实很勉强。我来算一下：

Qwen3.6-27B的Q5_K_M体积大约19-20GB，加上系统占用约1-2GB，总共21-22GB。剩下2-3GB给KV Cache和context，如果上下文超过2-4K就可能OOM。而Q4_K_M约16-17GB，能留出6-7GB给KV Cache，跑32-64K上下文很稳。

所以24GB卡跑27B模型，Q4_K_M确实是实际可用的上限。那个计算器说"适用Q5"可能没考虑系统开销和上下文显存。如果你一定要试Q5，可以：

但体验上不如直接Q4_K_M开128K上下文来得实用。

艷陽天 — Mon, 08 Jun 2026 04:55:10 GMT

我用它測試我的主機,7900XTX 24GB,說適用QWEN3.6-27B Q5, 我現在用Q4,開機後顯存已經91%,怕Q5會OOM, 有人試過裝Q5的嗎?

laobenxiong — Sun, 07 Jun 2026 05:09:27 GMT

terry — Sun, 07 Jun 2026 04:20:05 GMT

@AGI 可以，楼主可以优化下。你也可以发一个改进版。

AGI — Mon, 08 Jun 2026 01:56:34 GMT

Key和value可以用不同的量化，这个可以优化下，我key一般8bit, value用4bit

terry — Sun, 07 Jun 2026 01:40:19 GMT

想法不错，大家可以下载测试下。

wwcd2016 — Sat, 06 Jun 2026 14:25:15 GMT