GPT帮我总结的希望对大家有帮助:
下面是你这次 oMLX / Qwen3.6-27B-8bit 测试数据的整理版,可以直接拿去分享。
oMLX + Qwen3.6-27B-8bit 模型性能测试报告
一、测试环境
| 项目 |
内容 |
| 推理框架 |
oMLX |
| 运行设备 |
Mac / Apple Silicon |
| 主模型 |
Qwen3.6-27B-8bit |
| DFlash Draft |
z-lab/Qwen3.6-27B-DFlash |
| 主要用途 |
Hermes / OpenClaw / Agent 本地模型服务 |
| 测试方式 |
oMLX Benchmark + server.log 观察 |
| 重点指标 |
tg TPS、TTFT、E2E、Peak Mem、DFlash acceptance |
二、核心 Benchmark 对比
| 模式 |
测试项 |
TTFT |
TPOT |
Prompt 处理速度 |
生成速度 tg TPS |
E2E 总耗时 |
峰值内存 |
备注 |
| 普通 BatchedEngine |
pp1024 / tg128 |
3416.4 ms |
43.84 ms |
299.7 tok/s |
23.0 tok/s |
8.985 s |
30.45 GB |
稳定,适合 Agent 常驻 |
| 普通 BatchedEngine |
pp4096 / tg128 |
12828.8 ms |
44.66 ms |
319.3 tok/s |
22.6 tok/s |
18.500 s |
31.90 GB |
长上下文下速度稳定 |
| DFlash 开启 |
pp1024 / tg128 |
3607.3 ms |
9.21 ms |
283.9 tok/s |
109.4 tok/s |
4.777 s |
34.13 GB |
短上下文加速明显 |
| DFlash 开启 |
pp4096 / tg128 |
15439.9 ms |
44.67 ms |
265.3 tok/s |
22.6 tok/s |
21.114 s |
31.90 GB |
触发 fallback,回退普通引擎 |
三、DFlash 加速效果
| 对比项 |
普通模式 |
DFlash 模式 |
提升 |
| pp1024 / tg128 生成速度 |
23.0 tok/s |
109.4 tok/s |
约 4.76 倍 |
| pp1024 / tg128 E2E 总耗时 |
8.985 s |
4.777 s |
约快 46.8% |
| pp4096 / tg128 生成速度 |
22.6 tok/s |
22.6 tok/s |
无提升,已 fallback |
| pp4096 / tg128 E2E 总耗时 |
18.500 s |
21.114 s |
略慢 |
四、DFlash 日志观察
| 项目 |
观察结果 |
| DFlash 是否成功启用 |
成功 |
| Draft 模型路径 |
/Users/hao/.omlx/models/z-lab/Qwen3.6-27B-DFlash |
| DFlash max_ctx |
4096 |
| 短上下文 acceptance |
约 85.9% - 93.8% |
| 短上下文日志速度 |
约 20.4 - 27.0 tok/s(与 Benchmark 口径不完全一致) |
| 长上下文行为 |
4096 >= 4096 时自动 fallback 到 BatchedEngine |
| 结论 |
DFlash 对短上下文非常有效,长上下文基本无收益 |
五、连续批处理测试(对 Agent 有意义)
| 模式 |
Batch |
tg TPS |
Speedup |
pp TPS |
pp TPS/req |
TTFT |
E2E |
| 普通 BatchedEngine |
1x |
23.0 tok/s |
1.00x |
299.7 tok/s |
299.7 tok/s |
3416.4 ms |
8.985 s |
| 普通 BatchedEngine |
2x |
39.6 tok/s |
1.72x |
297.5 tok/s |
148.8 tok/s |
6757.2 ms |
13.353 s |
多请求并发时,总吞吐能提升到 39.6 tok/s。
六、SpecPrefill / TurboQuant 测试
| 功能 |
测试结果 |
结论 |
| SpecPrefill |
成功加载过 draft 模型 |
功能可用,但不建议当前常驻 |
| SpecPrefill Draft |
Huihui-Qwen3.5-9B-abliterated-mlx-4bit |
9B draft 偏大,不适合长期 Agent |
| TurboQuant 8bit KV |
成功启用 |
可省 KV cache,非必需 |
| TurboQuant 4bit KV |
启用成功,但内存回收压力大 |
不建议常驻 |
| DFlash + SpecPrefill + TurboQuant |
能跑,但出现内存压力 |
不适合长期稳定运行 |
七、关键日志风险
| 日志 |
含义 |
| DFlash context fallback: 4096 >= 4096 |
上下文达到 4096 后,DFlash 回退普通引擎 |
| active_memory=56.66GB exceeds safe threshold |
内存占用超过安全阈值 |
| Emergency reclaim failed |
模型回收压力大,不适合常驻 Agent |
八、最终推荐配置
1. Hermes / Agent 常驻配置(推荐长期使用)
| 设置项 |
推荐值 |
| 模型 |
Qwen3.6-27B-8bit |
| DFlash |
关闭 |
| SpecPrefill |
关闭 |
| TurboQuant KV Cache |
关闭 |
| Temperature |
0.3 - 0.5 |
| Top P |
0.9 - 0.95 |
| Top K |
20 |
| Max Tokens |
2048 |
| CTX Window |
默认或 8192 |
| 适用场景 |
Hermes、OpenClaw、Codex、本地 Agent、长时间自动化任务 |
原因:普通 BatchedEngine 稳定,速度 22-23 tok/s,内存 30-32GB。
2. 短任务高速配置(一次性生成)
| 设置项 |
推荐值 |
| 模型 |
Qwen3.6-27B-8bit |
| DFlash |
开启 |
| Draft Model |
z-lab/Qwen3.6-27B-DFlash |
| SpecPrefill |
关闭 |
| TurboQuant KV Cache |
关闭 |
| Temperature |
0.5 - 0.6 |
| Top P |
0.95 |
| Top K |
20 |
| CTX Window |
4096 |
| Max Tokens |
1024 - 2048 |
| 适用场景 |
电商文案、标题、私信、脚本、卖点、批量改写 |
原因:短上下文生成速度从 23.0 → 109.4 tok/s,提升约 4.76 倍。
九、一句话总结
| 用途 |
推荐配置 |
| Hermes / Agent 长期运行 |
普通 BatchedEngine,关闭所有实验功能 |
| 短文案 / 批量生成 / 快速输出 |
开 DFlash,关闭 SpecPrefill 和 TurboQuant |
| 长上下文资料分析 |
普通 BatchedEngine,按需测试 TurboQuant |
| 不推荐常驻 |
DFlash + SpecPrefill + TurboQuant 全开 |
十、最终结论
Qwen3.6-27B-8bit 在 oMLX 上普通模式已经很稳,Agent 常驻优先稳定;
DFlash 适合短上下文高速生成,但不适合作为 Hermes 主力常驻配置。