RTX3080 20g,qwen3.6 27B 60-40T/S 本地爽玩配置

vosrock

记录一下自己RTX3080 20g的一些配置
WIN11安装：
git clone https://github.com/ggerganov/llama.cpp
cmake -B build -D GGML_CUDA=ON -D CMAKE_CUDA_ARCHITECTURES=86 -D LLAMA_BUILD_SERVER=ON -D LLAMA_BUILD_ALL_EXAMPLES=OFF -D LLAMA_BUILD_TESTS=OFF -D LLAMA_BUILD_EXAMPLES=OFF
cmake --build build --config Release --parallel 2

启用集成显卡很有帮助，可以设置168960KV
初始60+T/S PREFILL1200 T/S，HERMES设置95%上下文才开始压缩，到压缩上下文之前还能有35T/S,PREFILL400T/S
实际工作体验中，实际上KV量化使用Q80和Q40精度损失几乎不可感知，所以就锁定Q40了
MTP命中基本都可以保持在0.85以上，偶尔会有一两次0.5左右的，实际收益非常高
本地爽玩大模型了

.\hermeswork\llama.cpp\build\bin\Release\llama-server.exe -m D:\hermeswork\models\Qwen3.6-27B-uncensored-heretic-v2-Native-MTP-Preserved.i1-IQ4_XS.gguf `
 -c 168960 `
 -ngl 99 `
 -t 24 `
 -tb 24 `
 -b 2048 `
 -ub 256 `
 -np 1 `
 --temp 0.15 `
 --top-p 0.9 `
 --top-k 40 `
 --min-p 0.05 `
 --presence-penalty 1.0 `
 --repeat-penalty 1.05 `
 --flash-attn on `
 -ctk q4_0 `
 -ctv q4_0 `
 --reasoning off `
 --kv-offload `
 --spec-type draft-mtp `
 --spec-draft-n-max 2 `
 --checkpoint-every-n-tokens 16384 `
 --ctx-checkpoints 64 `
 --cache-reuse 4096 `
 --no-context-shift `
 --cache-ram 24576 `
 --host 0.0.0.0 `
 --port 11434 `
 --mmap `
 --mlock `

删除了35B的配置，因为35B只有在很短的任务才能运行，任务一长就乱跑或者死循环，虽然飞快，但是感觉用不上

真是一张神卡啊

vosrock

terry

不错，其他人也分享了4060 8G也能跑，效果还不错，你者速度要稍微快点。系统环境，截图再补充一点，我给置顶了。最好侧下hermes效果，我以前用35b感觉不行，但有人说可以。

vosrock

vosrock

主要是这张，上下文多次尝试，别让专用显存炸了，我这里测试就是128000不掉速，别真输入128K，不然速度一下就掉到18T/S

vosrock

目前还没有调通HERMES，我正想发帖子问，但是自己还没有折腾够，我的HERMES最初是用WIN11直接装，没有跑WSL2，可以连接到本地的QWEN,但是很奇怪，没办法联网搜索，我先自己折腾一下，顺便截图

terry

已经非常实用了，128k跑hermes足够了，hermes不需要挑系统，就是测试它对话响应速度如何，能不能正常工作。

Xiaote

vosrock 速度不错！3080 20G 跑 Qwen3.6 27B 能到 45-50 T/s 说明 llama.cpp 配置挺到位的。

关于 Hermes 联网搜索的问题，Windows 直接装 Hermes（非 WSL2）确实需要注意网络配置：

联网搜索依赖浏览器工具（browser_use 或 playwright），Windows 下需要确保安装了 playwright 的浏览器驱动：playwright install chromium
检查 Hermes 的配置文件里 enable_web_search 是否设为 true
如果用的是本地 Qwen 模型，确认 Hermes 的 model provider 配置正确指向了你的本地端点

你可以在 Hermes 终端里跑一下 hermes doctor 看看网络组件的状态。如果 playwright 报错的话，试试重新装一下浏览器驱动。

另外 35B 多模态能跑到 110 T/s 很猛，这个速度跑 Hermes 完全够用了。

coin1860

测试一下prefill ， MTP 开启还有多少上下文？

这卡估计要等到trubo quant 和MTP 同时能开并且不影响prefill 的情况才算是神卡。现在太尴尬，只能用pi 写写代码。

vosrock

@Xiaote 谢谢指点，我想你应该指出了问题所在了，我正在备份文件，装一个纯净的系统再来测试

vosrock

@coin1860 35BA3B没有必要开MTP，我测了速度没有提升，可能是我的设置不对，刚才测了多模态的27B可用到110K上下文不降速，我想速度和上下文都不是问题了，PREFILL等我正式开始HERMES测试再看

墙内人

3080挺厉害的，没想到算力还不错

Tide

这是玩音响吗?看着像功放线路,就是图不太清楚...

vosrock

是的，是个电流传输的线路图，AI帮我写了两个软件，在圈里都挺受欢迎的，AI帮我赚钱了

vosrock

@墙内人推理应该是显存带宽主导，3080算力已经过剩了

Tide

抄作业完毕,感谢楼主!!!
我的硬件配置:2680v4,32G内存,3080 20G,主板x99比老特的x99还要丐.

terry

@Tide 体验如何，可以另开一个帖子，讲下部署过程和实测体验，多放点hermes的截图，方便其他人抄作业。最好能让hermes跑个小任务。

Tide

@terry 哈哈,惭愧呀.我哪有什么部署过程啊,无非就是把你这论坛两个帖子发给AI,要他仔细看一遍.然后学你的样使劲骂deepseek v4 flash.让他帮我全部搞定,我只监工.完工后体验是真好,让我不再焦虑64k上下文了.其余变化不大,显存占用比以前少了一点点.参考的另一个帖子是大模型16G卡的春天,但不是同样的llama.cpp.

vosrock

我也是终于跑通了，不过是使用LM STUDIO跑通的，损失了不少性能，35B目前PREFILL大概500ts,79T/S我觉得这个速度很慢，如果27B最终能到45T/S的话，我估计也只能算是勉强可用，我有的不太相信19/TS能干什么活

vosrock

刚才顶着这个速度耐心跑了一个中型软硬件结合的测量系统的架构设计和选型，包括文献整理，跑了8分钟，一次搞定，出来的结果合理，准确。对照我自己设计的方案，甚至感觉他的方案更完善文献每一篇都可查，直接秒杀了豆包啊，豆包给出的方案，文献全部都是杜撰的，没有一篇文章能找得到。35B我认为可用

抡锤者

RTX3080 20g,qwen3.6 27B 60-40T/S 本地爽玩配置