26-06-22:极限压榨：RTX 3090 24G(真正中质量长上下文 168K 达成）

terry

非常好，这是真正的生产力场景，大家多测试下，看看含金量如何。

stxpnet

接着干，这次先在别的目录装好codegraph.
然后llama.cpp这边也统一为kvarn6的 kv cache .显存占用为22.3G左右。

先让它自己跑起来吧，希望它能完美做好，经过这么多次，我发现本地LLM，显卡内部权重，KVCACHE的均衡是非常重要的，再有就是编程类的,K V CACHE尽量双Q8_0.

stxpnet

这次10分钟就好了。opencode没有内置浏览器无法测试。

不过还是有两个严重的BUG，再让它修一下吧。不行就重新用双q8的 k v cache来跑了。

stxpnet

最后的稳定参数，请24G NVIDIA卡友自测，
只差日志里面的一个 raw tool marker observed while lazy grammar is enabled; active grammar will be handled by the sampler in_reasoning 解决不了了
可以换框架加--peg参数。

killall llama-server 2>/dev/null; sleep 3
       /data/model2/beellma616-kv.cpp/build/bin/llama-server \
-m  /data/model3/ubergarm-Qwen3.6-27B-smol-MTP-IQ4_NL-ihavenoclue.gguf \
-ngl 9999 --props \
-fa on --metrics  --ctx-size 158000 -n 14000  \
-ctk kvarn8 -ctv kvarn8 --kv-unified \
--spec-type mtp --spec-draft-n-max 3 \
--jinja --no-mmap --mlock -np 1   -b 2048 -ub 512  \
--host 0.0.0.0 --port 8025 \
--reasoning off \
  --chat-template-kwargs '{"preserve_thinking":true}' \
--reasoning-format deepseek --reasoning-budget 1024 \
  --chat-template-file /data/model2/qwen3.6-27b-gguf/chat_template-Carnice27B-MTP-opt-v2.jinja \
 --temp 0.61 --top-k 20 --top-p 0.95 --min-p 0.05 --repeat-last-n 128

622am6 最佳hermes

```

killall llama-server 2>/dev/null; sleep 3
/data/model2/beellma616-kv.cpp/build/bin/llama-server
-m /data/model3/ubergarm-Qwen3.6-27B-smol-MTP-IQ4_NL-ihavenoclue.gguf
-ngl 9999 --props
-fa on --metrics --ctx-size 148000 -n 14000
-ctk kvarn8 -ctv kvarn8 --kv-unified
--spec-type mtp --spec-draft-n-max 3
--jinja --no-mmap --mlock -np 1 -b 2048 -ub 512
--host 0.0.0.0 --port 8025
--reasoning off
--chat-template-kwargs '{"preserve_thinking":true}'
--reasoning-format deepseek --reasoning-budget 1024
--chat-template-file /data/model2/qwen3.6-27b-gguf/chat_template-Carnice27B-MTP-opt-v2.jinja
--temp 0.72 --top-k 20 --top-p 0.87 --min-p 0.0 --presence-penalty 1.5 --repeat-penalty 1.0



模板文件在这里：https://wormhole.app/R8K7Ka#EQllW_B3xTm2odW6hSr1Nw

stxpnet

产生的中国象棋，我试玩了内核算法可能有问题，但是它已经按我最初的要求实现了象棋的最小MVP产品。相信如果安装好了codegraph,它就能更好独自的处理这种多文件项目。

神图镇楼：

Q4KM和Q3KM是多么的节能啊！
个人以为，多数场景，真正重要的是外部（用户输入的提示词）与模型内部固有的）二者都是Q4量化，二者的乘积产生的Q8量化结果，在整个使用过程中疯狂运算。从而得到用户期望的结果。这个过程，自然是Q8权重的模型更耗电。

踩过的坑：

566656661

KVarN原來不是vLLM限定？

還是外國大神們手作一個出來

applejuice

KVarN 是turboquant 的 2.3–3.7×？
两张3090 不是500k+ 上下文？

johnnybegood

@stxpnet 说:

27B-smol

HF搜不到，给个下载链接哈

wwcd2016

我围观。表示int6 做了mtp头仍然会严重降低智商。出错概率大。编程别想了。
我的需求就是，找到一个本地显卡，驱动hermes干活管理系统。驱动codex 自动完成复杂任务。
但是3090 我表示放弃。
最低入门4080s魔改32g
舒适4090魔改48g
——
或者各位大佬，有没有人能推翻lcz的论点：qwen3.6 27b是当前综合第一。
我不要综合第一，我要能干活。不出错就好了。
——

566656661

@wwcd2016

額, Qwen 3.6 27B本來在Agentic 調用上就是第一啊

不然也不會出現這麽多基於它的微調

Gemma 4 Dense在Agentic調用上就不知道爲什麽比27B差 (當然這個很主觀)

applejuice

@wwcd2016 hermes 4.3 好像是为了调度工具特意搞的
但是我3090 在llama 跑只有20t/s prefill 只有400

而且只是文字模型
所以没再尝试了

希望有大佬测试

stxpnet

@johnnybegood https://huggingface.co/ubergarm/Qwen3.6-27B-GGUF/tree/main

抡锤者

26-06-22:极限压榨：RTX 3090 24G(真正中质量长上下文 168K 达成）