@terry 又学到新东西了,以后知道怎么发帖了
K
kinco520
@kinco520
-
M3U 96G 发一下数据供以参考 -
M3U 96G 发一下数据供以参考GPT帮我总结的希望对大家有帮助:
下面是你这次 oMLX / Qwen3.6-27B-8bit 测试数据的整理版,可以直接拿去分享。oMLX + Qwen3.6-27B-8bit 模型性能测试报告
一、测试环境
项目 内容 推理框架 oMLX 运行设备 Mac / Apple Silicon 主模型 Qwen3.6-27B-8bit DFlash Draft z-lab/Qwen3.6-27B-DFlash 主要用途 Hermes / OpenClaw / Agent 本地模型服务 测试方式 oMLX Benchmark + server.log 观察 重点指标 tg TPS、TTFT、E2E、Peak Mem、DFlash acceptance
二、核心 Benchmark 对比
模式 测试项 TTFT TPOT Prompt 处理速度 生成速度 tg TPS E2E 总耗时 峰值内存 备注 普通 BatchedEngine pp1024 / tg128 3416.4 ms 43.84 ms 299.7 tok/s 23.0 tok/s 8.985 s 30.45 GB 稳定,适合 Agent 常驻 普通 BatchedEngine pp4096 / tg128 12828.8 ms 44.66 ms 319.3 tok/s 22.6 tok/s 18.500 s 31.90 GB 长上下文下速度稳定 DFlash 开启 pp1024 / tg128 3607.3 ms 9.21 ms 283.9 tok/s 109.4 tok/s 4.777 s 34.13 GB 短上下文加速明显 DFlash 开启 pp4096 / tg128 15439.9 ms 44.67 ms 265.3 tok/s 22.6 tok/s 21.114 s 31.90 GB 触发 fallback,回退普通引擎
三、DFlash 加速效果
对比项 普通模式 DFlash 模式 提升 pp1024 / tg128 生成速度 23.0 tok/s 109.4 tok/s 约 4.76 倍 pp1024 / tg128 E2E 总耗时 8.985 s 4.777 s 约快 46.8% pp4096 / tg128 生成速度 22.6 tok/s 22.6 tok/s 无提升,已 fallback pp4096 / tg128 E2E 总耗时 18.500 s 21.114 s 略慢
四、DFlash 日志观察
项目 观察结果 DFlash 是否成功启用 成功 Draft 模型路径 /Users/hao/.omlx/models/z-lab/Qwen3.6-27B-DFlash DFlash max_ctx 4096 短上下文 acceptance 约 85.9% - 93.8% 短上下文日志速度 约 20.4 - 27.0 tok/s(与 Benchmark 口径不完全一致) 长上下文行为 4096 >= 4096 时自动 fallback 到 BatchedEngine 结论 DFlash 对短上下文非常有效,长上下文基本无收益
五、连续批处理测试(对 Agent 有意义)
模式 Batch tg TPS Speedup pp TPS pp TPS/req TTFT E2E 普通 BatchedEngine 1x 23.0 tok/s 1.00x 299.7 tok/s 299.7 tok/s 3416.4 ms 8.985 s 普通 BatchedEngine 2x 39.6 tok/s 1.72x 297.5 tok/s 148.8 tok/s 6757.2 ms 13.353 s 多请求并发时,总吞吐能提升到 39.6 tok/s。
六、SpecPrefill / TurboQuant 测试
功能 测试结果 结论 SpecPrefill 成功加载过 draft 模型 功能可用,但不建议当前常驻 SpecPrefill Draft Huihui-Qwen3.5-9B-abliterated-mlx-4bit 9B draft 偏大,不适合长期 Agent TurboQuant 8bit KV 成功启用 可省 KV cache,非必需 TurboQuant 4bit KV 启用成功,但内存回收压力大 不建议常驻 DFlash + SpecPrefill + TurboQuant 能跑,但出现内存压力 不适合长期稳定运行
七、关键日志风险
日志 含义 DFlash context fallback: 4096 >= 4096 上下文达到 4096 后,DFlash 回退普通引擎 active_memory=56.66GB exceeds safe threshold 内存占用超过安全阈值 Emergency reclaim failed 模型回收压力大,不适合常驻 Agent
八、最终推荐配置
1. Hermes / Agent 常驻配置(推荐长期使用)
设置项 推荐值 模型 Qwen3.6-27B-8bit DFlash 关闭 SpecPrefill 关闭 TurboQuant KV Cache 关闭 Temperature 0.3 - 0.5 Top P 0.9 - 0.95 Top K 20 Max Tokens 2048 CTX Window 默认或 8192 适用场景 Hermes、OpenClaw、Codex、本地 Agent、长时间自动化任务 原因:普通 BatchedEngine 稳定,速度 22-23 tok/s,内存 30-32GB。
2. 短任务高速配置(一次性生成)
设置项 推荐值 模型 Qwen3.6-27B-8bit DFlash 开启 Draft Model z-lab/Qwen3.6-27B-DFlash SpecPrefill 关闭 TurboQuant KV Cache 关闭 Temperature 0.5 - 0.6 Top P 0.95 Top K 20 CTX Window 4096 Max Tokens 1024 - 2048 适用场景 电商文案、标题、私信、脚本、卖点、批量改写 原因:短上下文生成速度从 23.0 → 109.4 tok/s,提升约 4.76 倍。
九、一句话总结
用途 推荐配置 Hermes / Agent 长期运行 普通 BatchedEngine,关闭所有实验功能 短文案 / 批量生成 / 快速输出 开 DFlash,关闭 SpecPrefill 和 TurboQuant 长上下文资料分析 普通 BatchedEngine,按需测试 TurboQuant 不推荐常驻 DFlash + SpecPrefill + TurboQuant 全开
十、最终结论
Qwen3.6-27B-8bit 在 oMLX 上普通模式已经很稳,Agent 常驻优先稳定;
DFlash 适合短上下文高速生成,但不适合作为 Hermes 主力常驻配置。