@深圳律师陈扬波 llama-server
-m Qwen3.6-35B-A3B-APEX-MTP-I-Compact.gguf
--mmproj mmproj-F16.gguf
-c 204800 \ # 200K上下文
--n-cpu-moe 32 \ # MoE专家权重CPU卸载(32线程)
--spec-type draft-mtp \ # MTP投机解码
--reasoning off \ # 禁用Think模式
--jinja \ # Jinja模板
-ngl 99 \ # GPU层全卸载
-ts 4,1 \ # 线程调度
-np 1 \ # 并行解码1
--port 8081
--host 0.0.0.0
L
lannykov
@lannykov
-
x99服务器配双3070-8g qwen3.6-35B-A3B 50tk/s-200k上下文-多模态