问完去睡觉,下半个月死磕QWEN 3.6 35B A3B.

terry

@Jame-Huang 我草，这特么怎么好像是豆包云的，你确定是你自己搞的吗？别瞎几把发垃圾内容啊。

David Zhang

@Jame-Huang 请教个问题，4k左右的ctx，死磕这货的意义在哪？

fanwen1974

這個不要死磕，個人認爲最要死磕的是 Qwen-3.6 27B稠密模型，因爲。。。。。智力才夠。。我主要用在編程，Qwen-3.6 35BA3B專家混合模型，感覺編程有點弱。當然只是一般使用還行吧。

rock shi

@fanwen1974 是的，我测试过好几次了。hermes更新13.0以后我也不死心，就是想用35b，但是他就是moe，moe就是不行，跟27b稠密型根本比不了。其实DeepSeek v4 flash或者pro都不如27b，因为他俩也是moe

Xiaote

关于35B A3B vs 27B稠密模型，我说两句实际体验：

35B A3B的优势场景：

超长上下文（128k+）—— 这是它真正的杀手锏。MoE架构下KV Cache比同参数稠密模型小很多，同样24G显存，27B最多跑64k上下文，35B A3B可以轻松跑128k甚至更多
多轮对话 + 大文档分析时优势明显
速度和27B Q4差不多（因为激活参数只有3B）

27B稠密模型的优势：

单轮推理质量确实更强，特别是编程和逻辑推理
但是上下文的短板很明显——24G显存下64k基本就到头了

所以我的建议是双模型策略：

日常快速问答、编程 → 用27B Q4（质量好，响应快）
需要分析大文档、长对话历史、处理hermes的长期任务 → 换35B A3B（吃长上下文不费显存）

两个都下载好，用hermes的模型切换功能或者llama.cpp的--model参数随时切，这才是正解。

wwcd

这 4 个参数 SGLang 0.5.11 实际安装版识别不到：

| 指南写的参数 | SGLang 实际是否支持 |
|:---|:---|
| --model-format gguf | ❌ 没有这个参数（应改用 --load-format gguf） |
| --chunked-prefill-enabled | ❌ 没有（应改用 --chunked-prefill-size 512） |
| --enable-radix-cache | ❌ 没有（默认已开，可调 --radix-eviction-policy） |
| --extra-body | ❌ 不是启动参数（这是 API 请求体参数） |

那篇表格分析是理论推断，但实际 SGLang 0.5.11 装上去跑就是报这些错。要不要把所有参数改成 SGLang 实际支持的，再试一次看能不能过最后那一关？

╰────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────

抄作业都发现sglang根本没有你说的参数。请问sglang是那个版本？？

terry · 这 4 个参数 SGLang 0.5.11 实际安装版识别不到：

@wwcd 没看我的评论吗，我说这个像是豆包云的，不是真人的，这家伙直接禁言。

wwcd

@Jame-Huang 说:

运行
python -m sglang.launch_server
--model-path ./Qwen3.6-35B-A3B-APEX-I-Quality.gguf
--model-format gguf
--context-length 6144
--kv-cache-dtype int8
--mem-fraction-static 0.92
--chunked-prefill-enabled
--enable-radix-cache
--chat-template qwen3
--extra-body '{"enable_thinking": false}'
--port 8000
每个参数的作用和为什么这么设
表格
参数作用为什么设这个值
--model-path ./xxx.gguf 模型文件路径替换成你下载的 22.08GB 文件的实际路径
--model-format gguf 指定模型格式告诉 SGLang 这是 GGUF 格式的模型
--context-length 6144 最大上下文长度 24G 显卡的黄金平衡点，再大就需要 offload 权重了
--kv-cache-dtype int8 KV 缓存精度 3090 最优选择，显存减半，速度不变
--mem-fraction-static 0.92 显存分配比例给模型和 KV 缓存分配 92% 的显存（约 22.08GB），刚好放下你的模型 + 6K INT8 KV 缓存
--chunked-prefill-enabled 分块预填充避免长 prompt 一次性吃光显存，提升稳定性
--enable-radix-cache 启用 Radix 缓存多轮对话中自动复用历史 KV 缓存，速度提升 30% 以上
--chat-template qwen3 聊天模板正
谢谢！！！
我以为论坛都是大佬。原来云。云。云。
下次看清楚了。
必须是实测，分享之类的

@terry

terry

@wwcd 他已经被封号，我检查了这篇帖子，就是豆包写的。

ezios

我说怎么看着怪怪的

抡锤者

问完去睡觉,下半个月死磕QWEN 3.6 35B A3B.