RTX 3080 20GB 上以 256k / ~45 tk/s 运行 Qwen3.6-35B-A3B-Q4-K-M(ubuntu)

terry

跑27b要全量推理，你显存不够。35b专家之外可以卸载到内存里。你3080 20G能跑到这个水平很牛了。

Tide

@simo9052 我准备抄你的作业

殷玉达

按3080的理论速度是可以到100以上啊

殷玉达

我是3080 20G OCULINK +3060 12G 雷电3 基本能跑到100左右

殷玉达

参数信息
Qwen3.6-35B-A3B-MXFP4_MOE-MTP.gguf
ctx=192K
ngl=99
并发=2
GPU=3080+3060
TS=70,30
K=turbo3
V=turbo3
dK=turbo3
dV=turbo3
MTP=2
b=1024
ub=512
FA=on
t=8
temp=0.7

simo9052

@殷玉达大佬可以分享一下用哪一個llama.cpp編譯版本嗎

Hank Wang

45 每秒太慢了.需要调。接Agent让它自动测试最高速度。

殷玉达

殷玉达说:

参数信息
Qwen3.6-35B-A3B-MXFP4_MOE-MTP.gguf
ctx=192K
ngl=99
并发=2
GPU=3080+3060
TS=70,30
K=turbo3
V=turbo3
dK=turbo3
dV=turbo3
MTP=2
b=1024
ub=512
FA=on
t=8
temp=0.7

官方turboquant还没合并分支，我自己合并的，测试了几天基本没什么bug，你可以试试，早上刚合并9222也正常

殷玉达

这两参数你调大一点
BATCH="512"
UBATCH="256"
ctx 128K或者64K
K V的压缩尽量统一参数 turbo3 就可以
20g很容易oom，可以去huggface找找小一点的包，没有MTP 35A3B性能就不错

vosrock

我是同样的显卡，128K上下文带视觉的速度是120TK/S，跑27B速度64K上下文的速度是55TK/S，就是上下文小了点，其实速度是飞快的

flyps

感谢分享~~！！！

抡锤者

RTX 3080 20GB 上以 256k / ~45 tk/s 运行 Qwen3.6-35B-A3B-Q4-K-M(ubuntu)