RTX3080 20g,qwen3.6 27B 45-50T/S 35B多模态256K 110T/S
-
记录一下自己RTX3080 20g的一些配置
WIN11安装:
git clone https://github.com/ggerganov/llama.cpp
cmake -B build -D GGML_CUDA=ON -D CMAKE_CUDA_ARCHITECTURES=86 -D LLAMA_BUILD_SERVER=ON -D LLAMA_BUILD_ALL_EXAMPLES=OFF -D LLAMA_BUILD_TESTS=OFF -D LLAMA_BUILD_EXAMPLES=OFF
cmake --build build --config Release --parallel 227B原始64KQ8(35token/s):
.\llama-server.exe -m D:\hermeswork\models\Qwen3.6-27B-IQ4_NL.gguf-c 65536
-ngl 99-t 14
-tb 14-b 2048
-ub 512--flash-attn on
--cache-type-k q8_0--cache-type-v q8_0
--kv-offload--kv-unified
--mmap--mlock
--context-shift--reasoning off
--reasoning-budget 0--host 0.0.0.0
--port 1143427B126KQ4MTP无多模态(48token/s)
.\llama-server.exe -m D:\hermeswork\models\Qwen3.6-27B-IQ4_NL.gguf-c 128000
-ngl 99-t 14
-tb 14-b 4096
-ub 256--jinja
--temp 0.7--top-p 0.9
--top-k 40--min-p 0.0
--presence-penalty 1.0--repeat-penalty 1.05
--flash-attn on--cache-type-k q4_0
--cache-type-v q4_0--kv-offload
--kv-unified--mmap
--mlock--spec-type draft-mtp
--spec-draft-n-max 2--skip-chat-parsing
--reasoning off--reasoning-budget 0
--host 0.0.0.0 `
--port 1143435B256KQ4多模态 无MTP (113 TOKEN/S)
.\llama-server.exe -m D:\hermeswork\models\Qwen3.6-35B-A3B-UD-IQ4_NL.gguf-c 262144
-ngl 55-t 14
-tb 14-b 4096
-ub 256--jinja
--temp 0.7--top-p 0.9
--top-k 40--min-p 0.0
--presence-penalty 1.0--repeat-penalty 1.05
--flash-attn on--mmproj D:/hermeswork/models/mmproj-F32.gguf
--no-mmproj-offload--image-min-tokens 1024
--cache-type-k q4_0--cache-type-v q4_0
--skip-chat-parsing--reasoning off
--reasoning-budget 0--host 0.0.0.0
--port 8080--kv-offload
--kv-unified--mmap
--mlock `
真是一张神卡啊 -
T terry 固定了该主题
-
vosrock 速度不错!3080 20G 跑 Qwen3.6 27B 能到 45-50 T/s 说明 llama.cpp 配置挺到位的。
关于 Hermes 联网搜索的问题,Windows 直接装 Hermes(非 WSL2)确实需要注意网络配置:
- 联网搜索依赖浏览器工具(browser_use 或 playwright),Windows 下需要确保安装了 playwright 的浏览器驱动:
playwright install chromium - 检查 Hermes 的配置文件里
enable_web_search是否设为 true - 如果用的是本地 Qwen 模型,确认 Hermes 的 model provider 配置正确指向了你的本地端点
你可以在 Hermes 终端里跑一下
hermes doctor看看网络组件的状态。如果 playwright 报错的话,试试重新装一下浏览器驱动。另外 35B 多模态能跑到 110 T/s 很猛,这个速度跑 Hermes 完全够用了。
- 联网搜索依赖浏览器工具(browser_use 或 playwright),Windows 下需要确保安装了 playwright 的浏览器驱动:
-
vosrock 速度不错!3080 20G 跑 Qwen3.6 27B 能到 45-50 T/s 说明 llama.cpp 配置挺到位的。
关于 Hermes 联网搜索的问题,Windows 直接装 Hermes(非 WSL2)确实需要注意网络配置:
- 联网搜索依赖浏览器工具(browser_use 或 playwright),Windows 下需要确保安装了 playwright 的浏览器驱动:
playwright install chromium - 检查 Hermes 的配置文件里
enable_web_search是否设为 true - 如果用的是本地 Qwen 模型,确认 Hermes 的 model provider 配置正确指向了你的本地端点
你可以在 Hermes 终端里跑一下
hermes doctor看看网络组件的状态。如果 playwright 报错的话,试试重新装一下浏览器驱动。另外 35B 多模态能跑到 110 T/s 很猛,这个速度跑 Hermes 完全够用了。
- 联网搜索依赖浏览器工具(browser_use 或 playwright),Windows 下需要确保安装了 playwright 的浏览器驱动:
-
测试一下prefill , MTP 开启还有多少上下文?
这卡估计要等到trubo quant 和MTP 同时能开并且 不影响prefill 的情况才算是神卡。现在太尴尬, 只能用pi 写写代码。



主要是这张,上下文多次尝试,别让专用显存炸了,我这里测试就是128000不掉速,别真输入128K,不然速度一下就掉到18T/S