抡锤者

vosrock

记录一下自己RTX3080 20g的一些配置
WIN11安装：
git clone https://github.com/ggerganov/llama.cpp
cmake -B build -D GGML_CUDA=ON -D CMAKE_CUDA_ARCHITECTURES=86 -D LLAMA_BUILD_SERVER=ON -D LLAMA_BUILD_ALL_EXAMPLES=OFF -D LLAMA_BUILD_TESTS=OFF -D LLAMA_BUILD_EXAMPLES=OFF
cmake --build build --config Release --parallel 2

启用集成显卡很有帮助，可以设置168960KV
初始60+T/S PREFILL1200 T/S，HERMES设置95%上下文才开始压缩，到压缩上下文之前还能有35T/S,PREFILL400T/S
实际工作体验中，实际上KV量化使用Q80和Q40精度损失几乎不可感知，所以就锁定Q40了
MTP命中基本都可以保持在0.85以上，偶尔会有一两次0.5左右的，实际收益非常高
本地爽玩大模型了

.\hermeswork\llama.cpp\build\bin\Release\llama-server.exe -m D:\hermeswork\models\Qwen3.6-27B-uncensored-heretic-v2-Native-MTP-Preserved.i1-IQ4_XS.gguf `
 -c 168960 `
 -ngl 99 `
 -t 24 `
 -tb 24 `
 -b 2048 `
 -ub 256 `
 -np 1 `
 --temp 0.15 `
 --top-p 0.9 `
 --top-k 40 `
 --min-p 0.05 `
 --presence-penalty 1.0 `
 --repeat-penalty 1.05 `
 --flash-attn on `
 -ctk q4_0 `
 -ctv q4_0 `
 --reasoning off `
 --kv-offload `
 --spec-type draft-mtp `
 --spec-draft-n-max 2 `
 --checkpoint-every-n-tokens 16384 `
 --ctx-checkpoints 64 `
 --cache-reuse 4096 `
 --no-context-shift `
 --cache-ram 24576 `
 --host 0.0.0.0 `
 --port 11434 `
 --mmap `
 --mlock `

删除了35B的配置，因为35B只有在很短的任务才能运行，任务一长就乱跑或者死循环，虽然飞快，但是感觉用不上

真是一张神卡啊

vosrock

又让他写一个实时统计我TOKEN使用量的网页，一次成功了。

vosrock

可以试试这几个配置，这个上下文这个速度，我感觉已经没有升级的冲动了

vosrock

@applejuice 反正我是一边折腾一边工作，有痛苦的时候，就是这次对话的改动很好，但是显存炸了，这个时候只有3T/S，你得等它慢慢总结，慢慢GIT
27b也有过不去的坎，这个时候只能你自己告诉它怎么弄，我试过，它搞不定的，让他自己跑一个下午都跑不通，这里几天折腾，我的新软件也已经跑出来了。

vosrock

vosrock

都170K上下文了，任务都跑了一个多小时了，还能有50多TOKEN/S，不过这个不是常态，通常这个时候只能到30T/S，PERFILL只能到350左右

vosrock

最新优化，我觉得又白嫖了KV了，多模态MTP，长时间N多轮对话直到KV到99%都稳定运行，KV已经可以达到190K.。。。我继续让他做中型的代码任务，
35B我觉得可以弃用了，MTP基本无效，不时出点“什么缩进错误”，或者“干脆我重写好了”，
隔壁帖子提到的forcing full prompt re-processing due to lack of cache dataforcing full prompt re-processing due to lack of cache data现象，终于是出现了，不过也就一扫而过，没有感到任何异常

改了高亮的地方

vosrock

经过一天的折腾，27B确实智能更强，在教他干活的时候明显好用，多智能体协作的时候或者并行的时候，峰值可达70TOKEN/S，我勒个去，这个速度是我万万没想到的，35B我还没测试多线程，单线程的时候任务超过10分钟后，速度也会降到60多，我怀疑是还没优化到位，不过我已经不想搞了，27B三个线程已经可以这么快，就算两个线程基本是可以到60TOKEN/S的，我还搞毛线啊，干活去

vosrock

用27B跑项目的前期，工作习惯，框架大体搭好，然后用35B，开满上下文，不用MTP，速度就是这个样子，截图的这个状态实际上下文已经跑到了150K了，这只是单卡，还是不要搞双卡了，哥们

vosrock

我目前使用HERMES的方法是对话式的，还没达到大佬们自动生产脚本的程度，目前的体验已经比在线的要好，要快，能力一点不弱，甚至更强，因为它读我给它的PDF，又快又准，理解得又好，甚至有的时候我对PDF那个环节拿不准，让他帮我找解决方法比我去看还快，之前一旦对话到后期，显存占用19.7M无论共享显存是0.2G还是多少，就有几率出现个位数的T/S，这个时候就比较煎熬了，因为这个时候项目代码有的还没更新完，停又不好停，但是现在这个设置，达到19.7G显存占用后，速度几乎还能保持35T/S左右，甚至现在共享显存已经到了1G了，还是很稳，对话过程的延时基本就是一两秒就开始给我回复了，到此刻，正式结束HERMES 跑QWEN3.6 27B的参数优化，谢谢大家看我唠叨

vosrock

启用集成显卡很有帮助，可以设置168960KV
.\hermeswork\llama.cpp\build\bin\Release\llama-server.exe -m D:\hermeswork\models\Qwen3.6-27B-uncensored-heretic-v2-Native-MTP-Preserved.i1-IQ4_XS.gguf `
 -c 168960`
 -ngl 99 `
 -t 24 `
 -tb 24 `
 -b 2048 `
 -ub 256 `
 -np 1 `
 --temp 0.15 `
 --top-p 0.9 `
 --top-k 40 `
 --min-p 0.05 `
 --presence-penalty 1.0 `
 --repeat-penalty 1.05 `
 --flash-attn on `
 -ctk q4_0 `
 -ctv q4_0 `
 --reasoning off `
 --kv-offload `
 --spec-type draft-mtp `
 --spec-draft-n-max 2 `
 --checkpoint-every-n-tokens 16384 `
 --ctx-checkpoints 64 `
 --cache-reuse 4096 `
 --no-context-shift `
 --cache-ram 24576 `
 --host 0.0.0.0 `
 --port 11434 `
 --mmap `
 --mlock `

vosrock

以上设置，长时间跑，就是这个速度了，总的来说，还是不建议这张卡，至少还是得3090，那是优雅得多了，多模态也可以安排上

vosrock

以我这次的折腾，单卡跑27B MTP长期稳定极限是120K上下文，也很容易触发上下文压缩的，不知道有没有大神有解决方法，

我刚才豆包了一下，原来可以将模型权重分别载入两张卡，这样还是有意义啊，但是我主板第二PCIE是3.0的，这就很尴尬了，NVLINK能买到估计也不便宜

vosrock

没事，也就是这两年顶一下，很快就能用上几千块的A100了

vosrock

我是同样的显卡，128K上下文带视觉的速度是120TK/S，跑27B速度64K上下文的速度是55TK/S，就是上下文小了点，其实速度是飞快的

vosrock

@terry 对就是解耦的问题，我一开始就让HERMES自己写规划，自己去查资料看PDF，写到后面我让他修改一些小地方，发现它到处改，我才细看它的文档结构，告诉它将所有模块解耦才算真正开始开发

vosrock

就算是V4 PRO也贵不了多少，为啥要用其他呢

vosrock

抡锤者

vosrock

帖子