
我是3080 20G OCULINK +3060 12G 雷电3 基本能跑到100左右
殷玉达
@殷玉达
-
RTX 3080 20GB 上以 256k / ~45 tk/s 运行 Qwen3.6-35B-A3B-Q4-K-M(ubuntu) -
RTX 3080 20GB 上以 256k / ~45 tk/s 运行 Qwen3.6-35B-A3B-Q4-K-M(ubuntu)这两参数你调大一点
BATCH="512"
UBATCH="256"
ctx 128K或者64K
K V的压缩尽量统一参数 turbo3 就可以
20g很容易oom,可以去huggface找找小一点的包,没有MTP 35A3B性能就不错