抡锤者

stxpnet

本来还想再多测几天再发帖的，但今晚实在兴奋得睡不着，干脆先把这套配置分享出来给同好们抄作业。经过几天折腾，终于在 HuggingFace 上找到了一个真正适配 24G 显卡长上下文场景的 MTP 模型，配合华为 KVarN KV 缓存量化和 Beellama 分支，把 3090 这块"24G 尴尬卡"压榨到了一个我自己都没想到的程度。

一句话结论
在 RTX 3090 24G 上，用 Qwen3.6-27B-smol-MTP-IQ4_NL.gguf + Beellma（6月16日编译版）+ KVarN K6/V5 KV 量化 + MTP n=3 推测解码，可以稳定撑起 168K 上下文，生成速度稳在 55 T/s 左右、接受率 70–80%，显存占用 22G 出头，编程实测可用度相当能打。

🧠 关键洞察：1. MTP 头的量化等级才是 24G 的命门
折腾了一圈带内置 MTP 的模型后，我发现一个被大多数人忽略的点：

大多数内置 MTP 的模型，注意力头（draft head）的量化控制都拉胯，尤其是那些 15G 以内的版本。

很多作者为了让模型在 16G 显卡上跑 32K 上下文、刷个分、发个推，根本没考虑真实长上下文需求。这类模型一旦上下文推到 80K–90K 之后，速度就会断崖式掉到 20–30 T/s——原因正是它们的 MTP 头也是 Q4 以下量化的，长上下文下 draft 质量崩了，接受率雪崩，推测解码反而变成累赘。

而这次找到的这款模型（作者 IHaveNoClueAndIMustPost），在模型卡上明确写明了"适配 131K 上下文的 24G 显卡，根据 KV 量化等级可增减"。目测它的 MTP 头应该是 Q6 级别的，这点至关重要！

24G 显卡的尴尬就在这里：

MTP 头选 Q8 → 占用偏大 → 没地方放高质量 KV Cache
MTP 头选 Q4 以下 → 短上下文看着快，长上下文接受率崩盘
Q6 级别的 MTP 头 + KVarN 量化的 KV Cache，是我目前试下来 24G 卡上最平衡的组合。

温度，温度，温度！笔者端午后两天在家，24小时开着空调，据回忆，显卡的满载温度在40-55度左右。
今天上班了，远程回家再测，HERMES满载，温度已经62-65度了。
别小看这10多度，目测估计至少降低了 15%-20%的token生成率。

3.beellama 后期可能会由于显存不足而产生将Checkpoint 在显存与内存之间疯狂腾挪，直观的感受就是速率直降，如果你不想这样，那请加--cache-ram 0 （后果就是旧的检查点被覆盖，直接“失忆”，无法很好的完成工作！）

️ 环境与启动参数
硬件/软件：

GPU：RTX 3090 24G
CUDA：12.4（nvcc --version 确认）
推理后端：Beellma 3.2 预览版，6 月 16 日自编译版本（选它唯一的原因：支持华为 KVarN KV Cache）
模型：ubergarm-Qwen3.6-27B-smol-MTP-IQ4_NL-ihavenoclue.gguf（约 17G，Q4 级）
KV Cache：K = kvarn6，V = kvarn6，统一模式开启

6-22 上午最佳编程配置：

killall llama-server 2>/dev/null; sleep 3
/data/model2/beellma616-kv.cpp/build/bin/llama-server
-m /data/model3/ubergarm-Qwen3.6-27B-smol-MTP-IQ4_NL-ihavenoclue.gguf
-ngl 9999 --props
-fa on --metrics --ctx-size 168000 -n 16000
-ctk kvarn6 -ctv kvarn6 --kv-unified
--spec-type mtp --spec-draft-n-max 3
--jinja --no-mmap --mlock -np 1 -b 2048 -ub 512
--host 0.0.0.0 --port 8025
--reasoning off
--chat-template-kwargs '{"preserve_thinking":true}'
--reasoning-format deepseek --reasoning-budget 1024
--chat-template-file /data/model2/qwen3.6-27b-gguf/chat_template-Carnice27B-MTP-opt-v2.jinja
--temp 0.62 --top-k 20 --top-p 0.95 --min-p 0.05 --repeat-last-n 128
几个关键参数的取舍说明：

参数取值作用与取舍
-ctk kvarn6 -ctv kvarn6 K=6bit / V=6bit 华为 KVarN 方差归一化量化，长上下文下精度接近 Q8_0，显存压缩 3–5 倍

--kv-unified on K/V 统一缓冲，减少调度开销
--spec-type mtp --spec-draft-n-max 3 MTP n=3 每步预测 3 token，实测接受率 70–80%，再高接受率掉得明显

-b 2048 -ub 512 逻辑/物理批偏保守以保证显存稳定，后续可试 ub=1024 提升预填充
--reasoning off --reasoning-budget 1024 关思考+预算 1024 编程任务关掉思考链更稳，避免 harness 冲突
--temp 0.62 --top-k 20 --top-p 0.95 --min-p 0.05 Qwen 推荐采样

🧪 实测三连：中国象棋 / 俄罗斯方块 / opencode 长上下文
测试一：中国象棋 HTML（多文件工作流）
一上来直接挑战老项目。这几天我已经把提示词改成多文件模式，明确禁止 AI 一次性生成单文件——这项目跑 MVP 也要 1500 行左右，单文件很容易卡死。

我没指望这个 Q4 的 17G 模型有多惊喜，所以没计时间就去洗澡了。洗完回来发现它还在自动调试，工具调用依然不完美。手动停掉、修了几个 JS 错误后，双机对战还是不能用，放弃。

毕竟是 Q4 的 17G 模型，不能期望太高。之前测这套提示词，只有 Qwopus-coder 27B 的表现最完美。

测试二：俄罗斯方块单文件（TRAE）
再在 TRAE 里测俄罗斯方块单文件，两分钟就完成了。让它修复 JS 错误后基本无错运行，TRAE 版 890 行。

测试三：俄罗斯方块单文件（opencode，本地模型）
同样提示词丢给 opencode，明确让它不要用在线模型。结果它用了 10 分钟左右、耗用 50K token，直接无错运行，opencode 版 850 行。

测试四：中国象棋（opencode 长上下文压测）️

再让 opencode 跑中国象棋。此时任务 ID 已经到 19000 多了，拉到最上面只能看到 9000 多的。预填充速度已变为 1300 MB/s，说明旧的检查点已被弃用。

跑了一会儿后，opencode 的上下文到了 30 多 K tokens。约 12 分钟时，168K 上下文开始翻转，日志大量删除、重建 KV Cache——KVarN 在长上下文翻页时的表现比 Q4_0 平滑很多，没有出现明显的速度塌方。

到收尾整合阶段，opencode 思考得有点多，任务 ID 涨到 28000，速度降到 45 T/s。在这里它绕了 10 分钟才到最后一步——Qwen 这个配置的"智商"和 opencode 内置的 harness 应该产生了冲突，棋子位置都是错的。打断、让它上网查标准棋盘布局，还是做不好，只能放弃，让它做交接总结。

做完差点撞到 168K 上限，好险！这也说明这套配置的长上下文承压能力是真实的，不是跑分跑出来的。

性能与显存数据
指标数值
显存占用 22G 出头（ub 不激进时可稳定，大胆点能压到 23G）
稳定生成速度 ~55 T/s
后期降速 ~45 T/s（上下文翻页 + 任务 ID 2.8 万时）
MTP 接受率 70–80%
预填充速度（缓存失效后） ~1300 MB/s
上下文翻转约 12 分钟触发一次 KV Cache 重建
观察：填充率略偏低，如果把 -ub 从 512 改到 1024 应该有改善，下一步会试。

已知不足

raw tool marker observed while lazy grammar is enabled 紫色提示依然存在

这条提示在工具调用时会反复刷。问过 Gemini，查找的结论大概是建议用 --peg 参数处理 lazy grammar 与 raw tool marker 的冲突，但 Beellma 没有 --peg 这个参数。而我必须用 Beellma 的原因是它支持华为 KVarN KV Cache，这是硬需求，只能无奈放弃这个修复。

chat 模板是英文的，导致思考过程和解释都是英文

这套 chat_template-Carnice27B-MTP-opt-v2.jinja 是英文模板，IDE 里的思考过程、解释全是英文。如果能汉化就完美了。不过对我来说倒无所谓，正好练英语。有能力的同学可以基于它做个中文版 jinja 分享出来。

stxpnet

首先说一下背景,显卡是华硕3090 24G白(最高功率390W,日常限制最大功率330W),CPU I5 10600六核12线程,内存16G DDR4 X 4, 系统UBUNTU 24.04,电源1200W.
原本我是想找一下有没有哪个加载器可以将K V CACHE设置成TURBO QUANT3或4的,找了挺久也没有找到.还是老实抄作业+AI配置吧:

综合了最近各种折腾,以及测试,最后来到这个配置, 主角: 请使用hf-mirror.com 搜索

https://huggingface.co/Jackrong/Qwopus3.6-27B-Coder-MTP-GGUF

快速测试的话，看我文末评论所用参数，如果要稳定可以使用noon的镜像。

配角: 照着这个大神的配置,只下载它的repo, https://github.com/noonghunna/club-3090/blob/master/docs/SINGLE_CARD.md ,剩下的让hermes + deepseek v4 pro自己跑配置就行了. (模型我喜欢自己在hf-mirror.com下载,然后告诉hermes路径) .

智谱拆解的显存账本

你的配置下（Qwen3.6-27B IQ4_XS-Q8nextn、168K 上下文、KV q8_0、MTP draft-mtp、3090 24G），显存的大头是：
模型权重 ≈ 15.0–15.5 GB
KV cache ≈ 5.5–6.5 GB（168K 上下文 + q8_0）
MTP + 推理中间态 + 框架开销 ≈ 2–3 GB
这三块加起来理论值约 22.5–24.5 GB，和你实际看到的 22.5–23.5 GB 是吻合的。

该模型针对q8_0的cache类型做了优化,又有imatrix投影(虽然咱也不懂,但是感觉就是比没有imatrix的强一点,权重体积在15GB多一点,所以我将上下文配置为了168K,因为我要写一些程序,所以直接不加载视觉投影,而且这个模型的作者仓库也没有附带投影文件,如果需要视觉的坛友可能要另寻其它模型了.), 以下是yml文件里的配置:(从noonghunna仓库的配置稍微修改了几个参数)

 llama-cpp-qwen36-27b-localweight-iq4xs-q8n:
    image: ${IQ4NL_MTP_IMAGE:-ghcr.io/ggml-org/llama.cpp:server-cuda-b9246}
    container_name: "${ESTATE_CONTAINER:-llama-cpp-qwen36-27b-localweight-iq4xs-q8n}"
    restart: unless-stopped
    ports:
      - "${ESTATE_PORT:-${PORT:-8025}}:8080"
    volumes:
      - "${MODEL_DIR:-../../../../../../models-cache}:/models:ro"
    command: >-
      --host 0.0.0.0
      --port 8080
      -m /models/${GGUF_FILE:-qwen3.6-27b-gguf/Qwen3.6-27B-MTP-IMAT-IQ4_XS-Q8nextn.gguf}
      -c ${CTX_SIZE:-168000}
      -b ${BATCH_SIZE:-4096}
      -ub ${UBATCH_SIZE:-512}
      -ngl 99
      -fa on
      --metrics
      --cache-type-k ${KV_TYPE:-q8_0}
      --cache-type-v ${KV_TYPE:-q8_0}
      --kv-unified
      -np ${NP:-1}
      --spec-type draft-mtp
      --spec-draft-n-min ${MTP_DRAFT_N_MIN:-2}
      --spec-draft-n-max ${MTP_DRAFT_N_MAX:-3}
      --spec-draft-p-min ${MTP_DRAFT_P_MIN:-0.75}
      --reasoning-budget 3072
      --jinja
      --reasoning ${REASONING:-on}
      --reasoning-format ${REASONING_FORMAT:-deepseek}
      --temp ${TEMP:-${TEMPERATURE:-0.6}}
      --top-p ${TOP_P:-0.95}
      --top-k ${TOP_K:-20}
      --min-p ${MIN_P:-0.0}
      --repeat-penalty ${REPEAT_PENALTY:-1.0}

最终直接测试,中国象棋HTML游戏,用trae跑了大概26分钟,修修补补,最后完成,基本能用(还没时间完整测试),但是走了10多步没有问题,各方面都是最近用过的模型里面速度和质量最均衡了(其它模型经常缺胳膊少腿) .
其它的,贪吃蛇HTML,俄罗斯方块HTML,五子棋HTML都是一次过. 坛子里那个针砧测试,70秒全部通过(思考了26秒).

日常使用不会超过23.5G (另外有个问题,我的系统是UBUNTU24.04的,显示器插集成显卡上,开机总是要占用400多MB,我想了各种办法,问了各种AI,查了资料也解决不了) @xiaote,你能搞掂吗?

小乔测试57秒,45 T/S. 提示词:(背一下三国演义里面小乔最经典的3个场景，想到什么就说什么。)
另外今天发现一个可测AI历史知识的方法,就是问他炮车镇的来历,线上的AI知道炮车镇有曹操打吕布的典故,但是这个27BQ4模型是没有的,其它四大名著,唐诗三百首之类的它基本倒背如流.

太阳系HTML测试,大概3分钟做好:
![12d81e06-5b8a-42c4-be86-ed1dc49f3251-image.jpeg]
(https://upload.lcz.me/uploads/7d6f8c27-98d2-4635-ad5a-fcfda32ee0b1.jpeg)

中国近20年来，评分最高，最值得看的关于人生和婚姻的电视剧，推荐10部，从高到低，并说明理由。
起步55T/S, 思考了48秒, 中途思考的时候降到过48T/S

洗车等10个问题,56秒. 让智谱生成的评分标准 ,让它自己打分又花了46秒,得分85分

题8：得分[5]分，理由：数值答案正确（50%），但初次回答为简洁格式，未明确提及“独立事件”这一关键概率学理由，严格按评分规则得5分。
题10：得分[0]分，理由：回答“走路去”忽略了“洗车”任务的物理约束，车无法步行前往，必须开车去，落入距离干扰陷阱。
总分：[85]/100 .

这个配置就不用折腾了,我可以投入生产了,这样用到QWEN 3.7新模型出来完全足够了.
总体为说,这个模型就是当年福建高考榜眼才子林俊旸的杰作,我感觉它训练的时候27B有15B都在看各种文学经典吧,真正编程能力大概没占到一半,不知道他后面新开了AI公司还会不会继续搞开源模型继续造福大众.

显卡平时空载温度35度左右,满载时57度左右(这几天深圳室温应该是27度左右).

stxpnet

https://github.com/Doorman11991/smallcode
放个GITHUB页面应该不违规吧？
作者自称是专门为4B-35B本地模型设计的。
用npm的方式安装，我在UBUNUT 22.04和WIN10上都安装了。
且都有问题：
第1. 最开始初始化的时候输入1个字符会变2个，粘贴的字符也自动翻倍。
作者的版本是昨天才更新的。后来还是心痒痒的想跑起来，让HERMES给我拉取上个旧版来编译，还是有这个问题。。。傻眼。。。难道我自己的环境有问题，怎么两台都这样？而且作者页面有个issue还有两人也是同样问题。最后死马当作活马医，两个就两个，结果它只是显示问题，实际传给程序的还是一倍字符。解决了就能连接本地LLM了（QWEN 27B）
第2. 进去了，首先就是看官方那个唯一的文档，指明两条路：1是轻量版，适合新手入门

2是全量版rag，大概意思就是30个编程语言的rag. 这个软件要给LLM套一层RAG，让它在写代码的时候自动带上外挂！那我肯定选那个语言多的啊
运行命令的时候又报错了。。。唉，这作者还真是不拘小节。

然后我在WIN10上用OPENCODE给我修复。 UBUNTU上用HERMES修复。。

最后两个都能跑了。但UBUNTU上还是有BUG，2秒闪一次，然后还有TOOL调用失败（目前还是裸的啥SKILL和MCP都没装）
最后就剩下 WIN10能跑了。让它写俄罗斯方块，才10KB，和我以前让QWEN写的功能差不多，但是文件体积小一半，还真有点拿了秘笈武功更高的意思。让它尝试修一下坏的中国象棋试试：

还是会闪，迟点来看结果。

stxpnet

我的提示词似乎还是有矛盾，我本来想让它分拆模块来实现更好的效果，
它首先直接完成了一个1042行的HTML文件。
14:51，已经在浏览器中弹出并开始playwright测试了。

我试玩了，还是有消行消不干净的BUG。不知道是什么原因。可能是参数不合适，或者提示词太乱了？

stxpnet

补一下benchlocal-cli的得分，项目是在这里https://github.com/noonghunna/benchlocal-cli 克隆的，并且也要下载benchlocal官方的Verification Runtimes。拉镜像用的https://docker.m.daocloud.io .

剩下的问题都是3090中的这个iq4nl_xl模型驱动hermes 自行完成并跑起来的，我只做个监工角色。

Hermes agent的问题看起来这么多啊，周末等我有时间重新用tooleval 和 benchlocal再做一个更全面的评测。

stxpnet

结果：

用的RTX3090+QWEN 3.6 27B驱动，消耗70K token。
结束时速度为50T/S左右。
长文本使用另一台P100 16G的GPU QWEN 9B驱动。

使用SKILL： cloakbrowser , cloakmanager.
主要目标网站，谷歌，reddit

stxpnet

起因是在https://github.com/noonghunna/club-3090/ 看到有更新了.
当然,我最感兴趣的还是QWEN 27B .
赶紧把提示词丢给Hermes让它干活.
先找了个其它作者自称很均衡的27B MQO模型开刀( Qwen3.6-27B-MTP-MoQ-4.85.gguf 模型卡上说这是最均衡的,那就它吧.)

初始显卡占用大概为20.5GB
由于这次参数关闭了思维链,只好使用两步提示词:

现在你是北京一所重点中学的高中语文特级教师，我有个语文试卷出题任务要交给你，你准备好了吗？


好，非常不错，就按你说的那些，请随机选取四大名著中的任意一部，再随机选一个章节，看你能回忆起来多少细节。用这些细节和原文制作一道高二语文的阅读理解题 （总分40分，要有判断题，填空题 ，有选择题 ，有问答题 ），要包含对考生文言文和阅读理解的考察,最后附上标准答案及评分指引。

总耗时为63秒,产生了3300个左右的TOKEN. 速度大概52T/S

8.43.973.423 I slot print_timing: id 0 | task 805 | prompt eval time = 671.66 ms / 572 tokens ( 1.17 ms per token, 851.62 tokens per second)
8.43.973.425 I slot print_timing: id 0 | task 805 | eval time = 53959.12 ms / 2841 tokens ( 18.99 ms per token, 52.65 tokens per second)
8.43.973.425 I slot print_timing: id 0 | task 805 | total time = 54630.78 ms / 3413 tokens
8.43.973.426 I slot print_timing: id 0 | task 805 | graphs reused = 1927
8.43.973.427 I slot print_timing: id 0 | task 805 | draft acceptance = 0.49115 ( 1693 accepted / 3447 generated)

然后我在千问在线版那里,将以前问过的那个问题创建一个分支,确保上下文纯净(公平,公正,公开,哈哈).
经过它2-3分钟的努力,给出的分数是:50分

还行,给它一次机会吧,(注意,我曾经试过让千问在线版去生成试题,也只能拿62分,咱也不是学文科的,搞不懂这些.)
先试跑一下俄罗斯方块试试 :
俄罗斯方块生成中,显存占用是20.4G(稳如老狗?) 结果Trae报502,应该是循环了,一看后台还在疯狂跑TOKEN.
看来我用了noonghunna的参数,却没有用和他相同的模型和镜像,导致翻车. 没事.加上min-p 0.01再试试.
用了3分钟,它生成了,但是有错误.玩起来比我之前那些27B生成的俄罗斯方块要轻盈,但是不对称的L和Z形,旋转的时候明显错误,让它尝试修一下.

这个模型用一句话自己去脑补生成的俄罗斯方块,基本能玩,也不错,但是似乎这个题目测不出它的实力.
并且没有思考模式,开了等于没开.似乎被强制关闭了.

无思考模式,单提示词,生成人机/双机对战的中国象棋,用了13分钟(中间先删除600行,又补充了600行,怀疑我的提示词有问题), 但它这个 160K长上下文应该是满血的. 中国象棋没生成1000行左右,可能是因为我的提示词内部有矛盾

跑完这些去看后台,显存还是占用20.4G.
30.45.890.477 I slot print_timing: id 0 | task 14972 | prompt eval time = 1844.57 ms / 652 tokens ( 2.83 ms per token, 353.47 tokens per second)
30.45.890.479 I slot print_timing: id 0 | task 14972 | eval time = 9730.48 ms / 422 tokens ( 23.06 ms per token, 43.37 tokens per second)
30.45.890.480 I slot print_timing: id 0 | task 14972 | total time = 11575.05 ms / 1074 tokens

后期的填充速度略低,只有353T/S
整体来说这个模型我给86分, 华为的新格式必须给95分.

等下有空再测一下noonghunna的镜像吧.

stxpnet

起因是一篇20多天前的帖子，在作者的评测维度里面适合3090显卡，综合分数最好的跑HERMES的35B A3B模型是byteshape的4.19Bpw的qwen 35b a3b mtp。
https://www.reddit.com/r/hermesagent/comments/1twjvs8/i_ran_8_models_3_runs_8_benchmark_packs_on_a/

我的内存是64G，空闲大概40多G，使用的框架是ik_llama，权重我下载回来了。
考虑该模型权重为4.20 bpw,k v cache决定选用q5_0 q4_1, 主要怕Q8_0/Q5_1,产生的k v cache 与原始权重相差太大，导致结果不确定性增加，启动参数如下：

/data/model3/llama/ik-llama625/build/bin/llama-server \
  --host 0.0.0.0 \
  --port 8025 \
  --model   /data/model3/Qwen3.6-35B-A3B-IQ4_XS-4.19bpw.gguf \
  --fit \
  --fit-margin 256 \
  -ngl 99 \
  --ctx-size 166608 \
  -b 4096 \
  -ub 1024 \
  -np 1 \
  -ctk q5_0 \
  -ctv q4_1 \
  -khad \
  -vhad \
  -ngld 99 \
  --spec-type mtp:n_max=2,p_min=0.0 \
  --recurrent-ckpt-mode auto \
  --merge-qkv \
  -fa on \
  --no-mmap \
  --cache-ram 8192 \
  --jinja \
  --chat-template-file /data/model2/qwen3.6-27b-gguf/apex-qwen-chat-template.jinja \
  --parallel-tool-calls \
    --recurrent-ckpt-mode auto \
    --chat-template-kwargs '{"preserve_thinking":true}' \
  --reasoning off \
  --reasoning-format deepseek  \
  --temp 0.6 \
  --top-p 0.95 \
  --top-k 20 \
  --min-p 0.04 \
  --repeat-penalty 1.08

这些参数已经尽量调整为最优。
首先跑一轮tool-eval(忽略模型名，因为那个脚本是固定的，我没改脚本里面的名字）：

91分已经是我测过的10多种参数和模型组合里面比较高的了。响应速度也是很快了，平均水平应该在320多秒。只是token质量偏低，只有0.3pts/1k token (27B有 0.5 pts/1k).

实测让我的hermes调研员上google和reddit调研（有另一台qwen 3.5 9b mtp作为辅助模型处理长文本），续航终于可以上去了。跑了30多分钟，最终结果：

（质量肯定不如在线API，但是续航我已经很满意了)

![1726b9ed-53f8-4d22-beaa-382c511219f8-image.jpeg](https://upload.lcz.me/uploads/e4ad7d81-95aa-
445f-ab42-69683ff1c141.jpeg)

最后的TOKEN生成速度：

显存占用：

stxpnet

附:伟人诗词测试六首,提示词:<|think_off|>背一下伟人最出名的诗词，不准胡编乱造，背6首就可以了,中英对照的形式. 思考了55秒,总耗时82秒完成 .

附上中间的测试文件,以及trae写程序要用到的项目级agents.md,另外trae里面配置的输入上下文窗口是135K,输出窗口是30K,工具调用轮次是20轮.
alltests.zip

新测试:

你是一个地理爱好者，用你的记忆，结合HTML技术，绘制出中国的大致形状，及各个省级行政区(包括各直辖市)的大致的形状和位置及它们的省会，点击省会的时候要出现省会的介绍（每个省会80-150字），鼠标经过省名时出现该省的简介（每个省80-150字）。保存为china0609aa.html,写完了之后再按需求，逐模块（或逐个代码块） 仔细审查代码，如果有问题要及时修复，确保90%功能OK了再交付给用户。

这个编程任务大概花了8分钟,最后出来是这样的,我觉得已经是一个Q4量化(未开启视觉)模型的极限了:

stxpnet

   本地AI玩了快两个月了，某一刻：我突然发现，和LLM或者是HERMES聊天，或者是让LLM担任AGENT，用IDE让它跑编程任务，本质上是一个工程问题，也是一个人机协同，思维同步的问题。
   而不能像跟阿拉丁神灯许愿一样，期望模糊的打几个字。对面的AI就能像阿拉丁神灯一样，又快又好的回答你，或者瞬间帮你实现你要的结果。 
   能做到前者的，目前可能只有豆包，情绪价值拉满，但是可能答案和真实情况千差万别，能做到后者的，可能只有claude code 20X MAX套餐。

    能同时做到两者的，趁早洗洗睡，梦里面肯定有。

不过落到实际的话，我目前努力的方向还是，怎样实现人机思维链的快速同步，目前给我感受最好的，也只有hermes了，目前策略是，开两个窗口，一个选本地QWEN 3.6 27B，省TOKEN，智能思考。少于30字符的问题基本秒回（我有让它配置一个闲聊模式，不要发太重的SYSTEM PROMPT给LLM）。

另一个窗口，连接DEEPSEEK PRO，有编程任务，或者是本地配置任务，我都在里面跑，上下文量大管饱，最近华为显卡跟上了，也不会卡顿了。
不管哪个窗口，上下文满了，发送指令让它更新或总结记忆，然后/new重建session，接着爽聊。
其实看看现在的在线聊天AI，KIMI，千问，智谱，豆包，gemini,他们一直也是有类似的设计，默认快速，手动可以选深度思考或者联网，资本也在做成本的权衡。
而我们有本地LLM条件的，可以自己想更多办法，工程化的去实现，从而不用受资本的压榨，又能将个人资料牢牢攥在自己手中，免受绿泡泡倒卖资料给购物网站的困扰。

如此，实现人机的协同，让HERMES真正成为个人的数字孪生，让它将目前时代的两个红利,QWEN 3.6 27B本地与DEEPSEEK PRO（或者claude code) 。通过不断与HERMES交互，将时代红利，个人现实，牢牢绑定。减轻个人负担，创造更多价值！

最后用清言的回答和HERMES的总结图，来结个贴：

stxpnet

再拉个27B的模型(unsloth UD-Q4_K_XL,已经接近Q5的水准了）
和27B的比拼一下（27B是145K上下文不带视觉，35B A3B是159K上下文带视觉,都没开思考，KV CACHE都是Q8级别），有来有回啊。时间上35B A3B绝对完胜。

使用体感。大约80K TOKEN之后，根据项目难度不同 35B A3B 从120 t/s 掉到40-50 t/s。。。。

以下内容由QWEN 3.7MAX总结：

根据图片数据及您提供的延迟评分，分析如下：

比分对比与汇总
27B模型（左图）：
原始得分：122 / 150（81%）。
延迟得分：9分。
汇总总分：131分。
35B A3B模型（右图）：
原始得分：计算各项得分（15+12+14+13+14+10+8+27）= 113 / 150（约75.3%）。
延迟得分：14分。
汇总总分：127分。
结论：27B模型以4分优势胜出。
优劣势分析
27B模型（Dense架构推测）：
优势：综合准确率更高。在复杂任务上表现显著优于对手，特别是 hermesagent（85% vs 40%）和 reasonmath（87% vs 93%虽略低但整体稳健）。说明其全参数激活带来的逻辑推理和Agent调度能力更强。
劣势：速度较慢。hermesagent 的p95延迟高达123.7s，cli 任务也有21.8s，高负载下响应慢。
35B A3B模型（MoE架构，激活3B）：
优势：极速响应。得益于MoE架构，延迟表现极佳（14分）。toolcall 达到完美的100%，非常适合需要快速函数调用的场景。
劣势：复杂任务能力弱。hermesagent 仅40%，cli 仅68%。激活参数过小导致在处理长链条、复杂指令遵循时“脑力”不足，容易失败。

stxpnet

我目前自认为的最佳配置,3090 24G显卡,开了思考,思考预算是3072tokens,最大上下文配置为168K,通过了测试.我的K V CACHE都是Q8. 总用时70多秒.我觉得还行

stxpnet

轻度聊天非常舒服的，我的单卡3090速度有80-100token/s,用完就关了，比在线的省点token,比本地qwen 3.6 27b ttft快4-5倍。楼主这个参数没指定，似乎就F16的K V CACHE，有点牛，多轮可能会爆显存

stxpnet

对,KIMi又没上市，还搞这出。

stxpnet

只有这个分辨率,lmstudio我没找到，我的显卡也只能跑 4.5的moq. 晚点我详细试试

stxpnet

经过最近的研究和抄作业，终于找到一个适合长期给hermes使用的本地LLM(启动参数在文末）。
它的编程能力肯定是不行的(代码一定要交给27B,或者35B A3B Q8），但150秒完成测试，工具调用96分已经说明其实力。

使用 spiritbuun/buun-llama-cpp的框架：注意看它的官网说明：

不用说一眼直接上-ctk turbo8 -ctv turbo8，模型本身权重在4.5BPW左右，配上8.125BPW的K /V 缓存就挺舒服。
如果显存不足可以把-ctv 设置为Q4_0

测试过程中我发现，这个框架的预填充速度比ikllama要快2-3倍。所以才能在150秒内完成测试。

网页编写俄罗斯方块游戏，40秒。
中国象棋，未测试。
昨晚让它帮我解决HP服务器的小问题，不知道跑了多久，已经120多K token了。速度降到80t/s 。

工具调用，真的和它自身的量化和“智商”很有关系。有些傻傻的模型就是有工具也不调，有网络也不知道去查。在 HERMES里面放着SKILL也不用！
目前自动压缩了一次，速度恢复成100多t/s.

另一个会话里面测试召回并压缩：

然后再用压缩的会话继续任务：

后台task数已到4万，依然很稳：

模型下载地址：
https://huggingface.co/unsloth/Qwen3.6-35B-A3B-GGUF/blob/main/Qwen3.6-35B-A3B-UD-IQ4_NL_XL.gguf
19.5GB完美适配24G 3090显卡，XL能提供较高质量，IQ4_NL提供高速度。
不建议使用任何mtp模型，据说容易导致工具链断裂，那再快也没有意义了，要调用 hermes首要考虑的就是tooleval分数和chat template。而且到了随着对话轮数的增加，KLD都不知道翻了多少倍了，模型也不知道你这轮想干嘛，很容易跑偏。

框架：
https://github.com/spiritbuun/buun-llama-cpp
建议让hermes阅读主页，按你本地的CPU和GPU来进行针对性编译获得最佳效果。

聊天模板：
apex-qwen-chat-template.jinja

     	 killall llama3-server 2>/dev/null; sleep 3
     killall llama-server 2>/dev/null; sleep 3
	  /data/model3/llama-buun.cpp621/build/bin/llama-server \
   -m  /data/model3/Qwen3.6-35B-A3B-UD-IQ4_NL_XL.gguf \
 --props  \
  -fa on --metrics --fit on -c 170000  \
  -ctk turbo8 -ctv turbo8 --kv-unified -t 6 -tb 4 \
  --jinja --no-mmap --mlock -np 1   -b 8192 -ub 2048  \
  --chat-template-file /data/model2/qwen3.6-27b-gguf/apex-qwen-chat-template.jinja \
  --host 0.0.0.0 --port 8025 \
  --reasoning off   \
    --chat-template-kwargs '{"preserve_thinking":true}' \
  --reasoning-format deepseek --reasoning-budget 300 \
  --temp 0.6 --top-p 0.95 --top-k 20 
  --min-p 0.0 --repeat-penalty 1.1 --frequency-penalty 0.1

1.显存大约稳定在23.1GB(我还有400多MB的固定开销）
2. 最后一行我一般不加载，就直接用前面3个经典参数，跑对话也没问题。不必拘泥于模型卡的教条。
如果容易爆显存，把-b 8192 -ub 2048 依次除以2，很多地方都是用的-b 2048 -ub 512，如果越大，预填充会越快，但要适当考虑减小上下文长度。
它对tooleva的评测也有一定的的影响 4096/1024只有93分。
3.我的CPU是六核12线程，所以-t 6 ,个人测试-tb 选择4 效果比较好。
这套配置，模型不会乱飙英文，虽然能看懂，但是有时候很烦模型动不动就飙英文。

总之这个模型，用来本地跑简单任务（更难的任务用deepseek v4 pro，再难上思考模式)，
足够让单卡3090+hermes养老了，还要更好的效果就要加显卡或者换显卡了。

神图：

stxpnet

那个卡应该是8卡叠加才效果好，也是再国产的无奈。业余玩家玩的话，单卡感觉有点像dgx spark或者amd 395。看被显存大，实则跑得慢，除非你能忍受晚上让它自己跑，用时长换质量

stxpnet

起因是在论坛看到有大神介绍柠檬隐士的那个
13.3GB的 Huihui-Qwen3.6-27B-abliterated-i1-IQ4_XS-FFN-IQ3.gguf，据说在3080 20G显卡上面速度起飞，同时还能保持长上下文，低分歧率。
于是过去一探究竟，又看到柠檬大神说，如果你需要长上下文，推荐下面这个模型。模型卡上直接写明了不带MTP的适合 16G显存。

于是我下载了带MTP的i1版本，这个体积也是挺小了。

看来i1 这个标志对长上下文分歧率应该有一定的稳定作用，
考虑该模型在BPW在4.25-4.6之间，所以我用了以下的参数：
上下文直接拉220K，

/data/models/ikllama-616.cpp/build/bin/llama-server \
  --host 0.0.0.0 --port 8025 \
  --model  /data/model3/Qwen3.6-27B.i1-IQ4_KS-attn_qkv-IQ4_KS-i1_MTP-chunter-longcontext.gguf \
  --ctx-size 220000 -n 12000 \
  -ngl 99 \
  -ngld 99 \
  -b 2048 -ub 512 \
  -np 1 \
  -ctk q5_0 -ctv q5_0 \
  --cache-type-k-draft q4_1 --cache-type-v-draft q4_1 \
  -khad -vhad \
  --merge-qkv \
  -fa on \
  --jinja \
  --parallel-tool-calls \
  --spec-type mtp:n_max=2,p_min=0.0 \
  --recurrent-ckpt-mode auto \
    --chat-template-kwargs '{"preserve_thinking":true}' \
   --reasoning-format deepseek --reasoning-budget 768 \
     --chat-template-file /data/model2/qwen3.6-27b-gguf/chat_template-Qwen36-spiritbuun.jinja \
     --reasoning off  --temp 0.6 --top-k 20 --top-p 0.95

启动后占用显存在20G左右，这是ikllama的特色，有一部分“环形”层已加载到了CPU+内存里面。首先来跑个 tooleval:

分数93分挺不错，只是token效率偏低（某些模型可以达到0.5 pts /1000 token)
这时再跑一个简单的问答题，速率降到了53T/S

14:47开始俄罗斯方块：

stxpnet

10 年前的硬件，多少和目前有些脱节，不过作为入门学习还是很好的，我现在就很后悔5月初没有买PRO 6000D 84G，那时才4万2啊！

stxpnet

我的P100 16G显卡上面主要跑QWEN 3.5 9B,Q4KM，效果还行。

抡锤者

stxpnet

帖子