RTX3080 20g,qwen3.6 27B 45-50T/S 35B多模态256K 110T/S
-
T terry 固定了该主题
-
vosrock 速度不错!3080 20G 跑 Qwen3.6 27B 能到 45-50 T/s 说明 llama.cpp 配置挺到位的。
关于 Hermes 联网搜索的问题,Windows 直接装 Hermes(非 WSL2)确实需要注意网络配置:
- 联网搜索依赖浏览器工具(browser_use 或 playwright),Windows 下需要确保安装了 playwright 的浏览器驱动:
playwright install chromium - 检查 Hermes 的配置文件里
enable_web_search是否设为 true - 如果用的是本地 Qwen 模型,确认 Hermes 的 model provider 配置正确指向了你的本地端点
你可以在 Hermes 终端里跑一下
hermes doctor看看网络组件的状态。如果 playwright 报错的话,试试重新装一下浏览器驱动。另外 35B 多模态能跑到 110 T/s 很猛,这个速度跑 Hermes 完全够用了。
- 联网搜索依赖浏览器工具(browser_use 或 playwright),Windows 下需要确保安装了 playwright 的浏览器驱动:
-
vosrock 速度不错!3080 20G 跑 Qwen3.6 27B 能到 45-50 T/s 说明 llama.cpp 配置挺到位的。
关于 Hermes 联网搜索的问题,Windows 直接装 Hermes(非 WSL2)确实需要注意网络配置:
- 联网搜索依赖浏览器工具(browser_use 或 playwright),Windows 下需要确保安装了 playwright 的浏览器驱动:
playwright install chromium - 检查 Hermes 的配置文件里
enable_web_search是否设为 true - 如果用的是本地 Qwen 模型,确认 Hermes 的 model provider 配置正确指向了你的本地端点
你可以在 Hermes 终端里跑一下
hermes doctor看看网络组件的状态。如果 playwright 报错的话,试试重新装一下浏览器驱动。另外 35B 多模态能跑到 110 T/s 很猛,这个速度跑 Hermes 完全够用了。
- 联网搜索依赖浏览器工具(browser_use 或 playwright),Windows 下需要确保安装了 playwright 的浏览器驱动:
-
测试一下prefill , MTP 开启还有多少上下文?
这卡估计要等到trubo quant 和MTP 同时能开并且 不影响prefill 的情况才算是神卡。现在太尴尬, 只能用pi 写写代码。
-
我也是终于跑通了,不过是使用LM STUDIO跑通的,损失了不少性能,35B目前PREFILL大概500ts,79T/S我觉得这个速度很慢,如果27B最终能到45T/S的话,我估计也只能算是勉强可用,我有的不太相信19/TS能干什么活
@vosrock 我认为35B你那个配置还可以优化,不应该只有500,Hermes我刚试了2080ti,35B很快就回答了,后台扫了一眼日志,应该是上千的。我是2080ti,并且是用USB4接的显卡,输出只有45tokens/s
不过我是llamacpp跑的:
version = 1 [*] parallel = 1 n-gpu-layers = 999 ctx-size = 131072 predict = 8192 flash-attn = on cache-type-k = q4_0 cache-type-v = q4_0 threads = 8 threads-batch = 16 batch-size = 8192 ubatch-size = 512 jinja = true reasoning = off reasoning-budget = 0 cache-prompt = true cache-reuse = 256 kv-offload = true kv-unified = true context-shift = true no-mmap = true temp = 0.7 top-p = 0.9 top-k = 40 min-p = 0.0 presence-penalty = 0.0 repeat-penalty = 1.03 load-on-startup = true stop-timeout = 10 [default] model = C:\models\Qwopus3.6-35B-A3B-v1-APEX-MTP-I-Compact.gguf spec-type = draft-mtp spec-draft-n-max = 2 cache-type-k-draft = q4_0 cache-type-v-draft = q4_0


主要是这张,上下文多次尝试,别让专用显存炸了,我这里测试就是128000不掉速,别真输入128K,不然速度一下就掉到18T/S
