首先说一下背景,显卡是华硕3090 24G白(最高功率390W,日常限制最大功率330W),CPU I5 10600六核12线程,内存16G DDR4 X 4, 系统UBUNTU 24.04,电源1200W.
原本我是想找一下 有没有哪个加载器可以将K V CACHE设置成TURBO QUANT3或4的,找了挺久也没有找到.还是老实抄作业+AI配置吧:
综合了最近各种折腾,以及测试,最后来到这个配置, 主角: 请使用hf-mirror.com 搜索
localweights/Qwen3.6-27B-MTP-IMAT-IQ4_XS-Q8nextn-GGUF

配角: 照着这个大神的配置,只下载它的repo, https://github.com/noonghunna/club-3090/blob/master/docs/SINGLE_CARD.md ,剩下 的让hermes + deepseek v4 pro自己跑配置就行了. (模型我喜欢自己在hf-mirror.com下载,然后告诉hermes路径) .
智谱拆解的显存账本
你的配置下(Qwen3.6-27B IQ4_XS-Q8nextn、168K 上下文、KV q8_0、MTP draft-mtp、3090 24G),显存的大头是:
模型权重 ≈ 15.0–15.5 GB
KV cache ≈ 5.5–6.5 GB(168K 上下文 + q8_0)
MTP + 推理中间态 + 框架开销 ≈ 2–3 GB
这三块加起来理论值约 22.5–24.5 GB,和你实际看到的 22.5–23.5 GB 是吻合的。
该模型针对q8_0的cache类型做了优化,又有imatrix投影(虽然咱也不懂,但是感觉就是比没有imatrix的强一点,权重体积在15GB多一点,所以我将上下文配置为了168K,因为我要写一些程序,所以直接不加载视觉投影,而且这个模型的作者仓库也没有附带投影文件,如果需要视觉的坛友可能要另寻其它模型了.), 以下是yml文件里的配置:(从noonghunna仓库的配置稍微修改了几个参数)
llama-cpp-qwen36-27b-localweight-iq4xs-q8n:
image: ${IQ4NL_MTP_IMAGE:-ghcr.io/ggml-org/llama.cpp:server-cuda-b9246}
container_name: "${ESTATE_CONTAINER:-llama-cpp-qwen36-27b-localweight-iq4xs-q8n}"
restart: unless-stopped
ports:
- "${ESTATE_PORT:-${PORT:-8025}}:8080"
volumes:
- "${MODEL_DIR:-../../../../../../models-cache}:/models:ro"
command: >-
--host 0.0.0.0
--port 8080
-m /models/${GGUF_FILE:-qwen3.6-27b-gguf/Qwen3.6-27B-MTP-IMAT-IQ4_XS-Q8nextn.gguf}
-c ${CTX_SIZE:-168000}
-b ${BATCH_SIZE:-4096}
-ub ${UBATCH_SIZE:-512}
-ngl 99
-fa on
--metrics
--cache-type-k ${KV_TYPE:-q8_0}
--cache-type-v ${KV_TYPE:-q8_0}
--kv-unified
-np ${NP:-1}
--spec-type draft-mtp
--spec-draft-n-min ${MTP_DRAFT_N_MIN:-2}
--spec-draft-n-max ${MTP_DRAFT_N_MAX:-3}
--spec-draft-p-min ${MTP_DRAFT_P_MIN:-0.75}
--reasoning-budget 3072
--jinja
--reasoning ${REASONING:-on}
--reasoning-format ${REASONING_FORMAT:-deepseek}
--temp ${TEMP:-${TEMPERATURE:-0.6}}
--top-p ${TOP_P:-0.95}
--top-k ${TOP_K:-20}
--min-p ${MIN_P:-0.0}
--repeat-penalty ${REPEAT_PENALTY:-1.0}

最终直接测试,中国象棋HTML游戏,用trae跑了大概26分钟,修修补补,最后完成,基本能用(还没时间完整测试),但是走了10多步没有问题,各方面都是最近用过 的模型里面速度和质量最均衡了(其它模型经常缺胳膊少腿) .
其它的,贪吃蛇HTML,俄罗斯方块HTML,五子棋HTML都是一次过. 坛子里那个针砧测试,70秒全部通过(思考了26秒).

日常使用不会超过23.5G (另外有个问题,我的系统是UBUNTU24.04的,显示器插集成显卡上,开机总是要占用400多MB,我想了各种办法,问了各种AI,查了资料也解决不了) @xiaote,你能搞掂吗?

小乔测试57秒,45 T/S. 提示词:(背一下三国演义里面小乔最经典的3个场景 ,想到什么就说什么。)
另外今天发现一个可测AI历史知识的方法,就是问他炮车镇的来历,线上的AI知道炮车镇有曹操打吕布的典故,但是这个27BQ4模型是没有的,其它四大名著,唐诗三百首之类的它基本倒背如流.
太阳系HTML测试,大概3分钟做好:
![12d81e06-5b8a-42c4-be86-ed1dc49f3251-image.jpeg]
(https://upload.lcz.me/uploads/7d6f8c27-98d2-4635-ad5a-fcfda32ee0b1.jpeg)

中国近20年来,评分最高,最值得看的关于人生和婚姻的电视剧,推荐10部,从高到低,并说明理由。
起步55T/S, 思考了48秒, 中途思考的时候降到过48T/S

洗车等10个问题,56秒. 让智谱生成的评分标准 ,让它自己打分又花了46秒,得分85分

题8:得分[5]分,理由:数值答案正确(50%),但初次回答为简洁格式,未明确提及“独立事件”这一关键概率学理由,严格按评分规则得5分。
题10:得分[0]分,理由:回答“走路去”忽略了“洗车”任务的物理约束,车无法步行前往,必须开车去,落入距离干扰陷阱。
总分:[85]/100 .
这个配置就不用折腾了,我可以投入生产了,这样用到QWEN 3.7新模型出来完全足够了.
总体为说,这个模型就是 当年福建高考榜眼才子 林俊旸的杰作,我感觉它训练的时候27B有15B都在看各种文学经典吧,真正编程能力大概没占到一半,不知道他后面新开了AI公司还会不会继续搞开源模型继续造福大众.
显卡平时空载温度35度左右,满载时57度左右(这几天 深圳室温应该是27度左右).