这两参数你调大一点
BATCH="512"
UBATCH="256"
ctx 128K或者64K
K V的压缩尽量统一参数 turbo3 就可以
20g很容易oom,可以去huggface找找小一点的包,没有MTP 35A3B性能就不错
殷玉达
@殷玉达
-
RTX 3080 20GB 上以 256k / ~45 tk/s 运行 Qwen3.6-35B-A3B-Q4-K-M(ubuntu) -
RTX 3080 20GB 上以 256k / ~45 tk/s 运行 Qwen3.6-35B-A3B-Q4-K-M(ubuntu)殷玉达 说:
参数信息
Qwen3.6-35B-A3B-MXFP4_MOE-MTP.gguf
ctx=192K
ngl=99
并发=2
GPU=3080+3060
TS=70,30
K=turbo3
V=turbo3
dK=turbo3
dV=turbo3
MTP=2
b=1024
ub=512
FA=on
t=8
temp=0.7官方turboquant还没合并分支,我自己合并的,测试了几天基本没什么bug,你可以试试,早上刚合并9222也正常
-
RTX 3080 20GB 上以 256k / ~45 tk/s 运行 Qwen3.6-35B-A3B-Q4-K-M(ubuntu)参数信息
Qwen3.6-35B-A3B-MXFP4_MOE-MTP.gguf
ctx=192K
ngl=99
并发=2
GPU=3080+3060
TS=70,30
K=turbo3
V=turbo3
dK=turbo3
dV=turbo3
MTP=2
b=1024
ub=512
FA=on
t=8
temp=0.7 -
RTX 3080 20GB 上以 256k / ~45 tk/s 运行 Qwen3.6-35B-A3B-Q4-K-M(ubuntu)
我是3080 20G OCULINK +3060 12G 雷电3 基本能跑到100左右 -
RTX 3080 20GB 上以 256k / ~45 tk/s 运行 Qwen3.6-35B-A3B-Q4-K-M(ubuntu)按3080的理论速度是可以到100以上啊