抡锤者

kinco520

GPT帮我总结的希望对大家有帮助：
下面是你这次 oMLX / Qwen3.6-27B-8bit 测试数据的整理版，可以直接拿去分享。

oMLX + Qwen3.6-27B-8bit 模型性能测试报告

项目	内容
推理框架	oMLX
运行设备	Mac / Apple Silicon
主模型	Qwen3.6-27B-8bit
DFlash Draft	z-lab/Qwen3.6-27B-DFlash
主要用途	Hermes / OpenClaw / Agent 本地模型服务
测试方式	oMLX Benchmark + server.log 观察
重点指标	tg TPS、TTFT、E2E、Peak Mem、DFlash acceptance

模式	测试项	TTFT	TPOT	Prompt 处理速度	生成速度 tg TPS	E2E 总耗时	峰值内存	备注
普通 BatchedEngine	pp1024 / tg128	3416.4 ms	43.84 ms	299.7 tok/s	23.0 tok/s	8.985 s	30.45 GB	稳定，适合 Agent 常驻
普通 BatchedEngine	pp4096 / tg128	12828.8 ms	44.66 ms	319.3 tok/s	22.6 tok/s	18.500 s	31.90 GB	长上下文下速度稳定
DFlash 开启	pp1024 / tg128	3607.3 ms	9.21 ms	283.9 tok/s	109.4 tok/s	4.777 s	34.13 GB	短上下文加速明显
DFlash 开启	pp4096 / tg128	15439.9 ms	44.67 ms	265.3 tok/s	22.6 tok/s	21.114 s	31.90 GB	触发 fallback，回退普通引擎

对比项	普通模式	DFlash 模式	提升
pp1024 / tg128 生成速度	23.0 tok/s	109.4 tok/s	约 4.76 倍
pp1024 / tg128 E2E 总耗时	8.985 s	4.777 s	约快 46.8%
pp4096 / tg128 生成速度	22.6 tok/s	22.6 tok/s	无提升，已 fallback
pp4096 / tg128 E2E 总耗时	18.500 s	21.114 s	略慢

项目	观察结果
DFlash 是否成功启用	成功
Draft 模型路径	/Users/hao/.omlx/models/z-lab/Qwen3.6-27B-DFlash
DFlash max_ctx	4096
短上下文 acceptance	约 85.9% - 93.8%
短上下文日志速度	约 20.4 - 27.0 tok/s（与 Benchmark 口径不完全一致）
长上下文行为	4096 >= 4096 时自动 fallback 到 BatchedEngine
结论	DFlash 对短上下文非常有效，长上下文基本无收益

模式	Batch	tg TPS	Speedup	pp TPS	pp TPS/req	TTFT	E2E
普通 BatchedEngine	1x	23.0 tok/s	1.00x	299.7 tok/s	299.7 tok/s	3416.4 ms	8.985 s
普通 BatchedEngine	2x	39.6 tok/s	1.72x	297.5 tok/s	148.8 tok/s	6757.2 ms	13.353 s

多请求并发时，总吞吐能提升到 39.6 tok/s。

功能	测试结果	结论
SpecPrefill	成功加载过 draft 模型	功能可用，但不建议当前常驻
SpecPrefill Draft	Huihui-Qwen3.5-9B-abliterated-mlx-4bit	9B draft 偏大，不适合长期 Agent
TurboQuant 8bit KV	成功启用	可省 KV cache，非必需
TurboQuant 4bit KV	启用成功，但内存回收压力大	不建议常驻
DFlash + SpecPrefill + TurboQuant	能跑，但出现内存压力	不适合长期稳定运行

日志	含义
DFlash context fallback: 4096 >= 4096	上下文达到 4096 后，DFlash 回退普通引擎
active_memory=56.66GB exceeds safe threshold	内存占用超过安全阈值
Emergency reclaim failed	模型回收压力大，不适合常驻 Agent

设置项	推荐值
模型	Qwen3.6-27B-8bit
DFlash	关闭
SpecPrefill	关闭
TurboQuant KV Cache	关闭
Temperature	0.3 - 0.5
Top P	0.9 - 0.95
Top K	20
Max Tokens	2048
CTX Window	默认或 8192
适用场景	Hermes、OpenClaw、Codex、本地 Agent、长时间自动化任务

原因：普通 BatchedEngine 稳定，速度 22-23 tok/s，内存 30-32GB。

原因：短上下文生成速度从 23.0 → 109.4 tok/s，提升约 4.76 倍。

用途	推荐配置
Hermes / Agent 长期运行	普通 BatchedEngine，关闭所有实验功能
短文案 / 批量生成 / 快速输出	开 DFlash，关闭 SpecPrefill 和 TurboQuant
长上下文资料分析	普通 BatchedEngine，按需测试 TurboQuant
不推荐常驻	DFlash + SpecPrefill + TurboQuant 全开

Qwen3.6-27B-8bit 在 oMLX 上普通模式已经很稳，Agent 常驻优先稳定；
DFlash 适合短上下文高速生成，但不适合作为 Hermes 主力常驻配置。