跳转至内容
  • 版块
  • 最新
  • 标签
  • 热门
  • 用户
  • 群组
皮肤
  • 浅色
  • Brite
  • Cerulean
  • Cosmo
  • Flatly
  • Journal
  • Litera
  • Lumen
  • Lux
  • Materia
  • Minty
  • Morph
  • Pulse
  • Sandstone
  • Simplex
  • Sketchy
  • Spacelab
  • United
  • Yeti
  • Zephyr
  • 深色
  • Cyborg
  • Darkly
  • Quartz
  • Slate
  • Solar
  • Superhero
  • Vapor

  • 默认(不使用皮肤)
  • 不使用皮肤
折叠
品牌标识

抡锤者

K

kinco520

@kinco520
关于
帖子
2
主题
1
分享
0
群组
0
粉丝
0
关注
0

帖子

最新 最佳 有争议的

  • M3U 96G 发一下数据供以参考
    K kinco520

    @terry 又学到新东西了,以后知道怎么发帖了

    AI硬件

  • M3U 96G 发一下数据供以参考
    K kinco520

    GPT帮我总结的希望对大家有帮助:
    下面是你这次 oMLX / Qwen3.6-27B-8bit 测试数据的整理版,可以直接拿去分享。

    oMLX + Qwen3.6-27B-8bit 模型性能测试报告

    一、测试环境

    项目 内容
    推理框架 oMLX
    运行设备 Mac / Apple Silicon
    主模型 Qwen3.6-27B-8bit
    DFlash Draft z-lab/Qwen3.6-27B-DFlash
    主要用途 Hermes / OpenClaw / Agent 本地模型服务
    测试方式 oMLX Benchmark + server.log 观察
    重点指标 tg TPS、TTFT、E2E、Peak Mem、DFlash acceptance

    二、核心 Benchmark 对比

    模式 测试项 TTFT TPOT Prompt 处理速度 生成速度 tg TPS E2E 总耗时 峰值内存 备注
    普通 BatchedEngine pp1024 / tg128 3416.4 ms 43.84 ms 299.7 tok/s 23.0 tok/s 8.985 s 30.45 GB 稳定,适合 Agent 常驻
    普通 BatchedEngine pp4096 / tg128 12828.8 ms 44.66 ms 319.3 tok/s 22.6 tok/s 18.500 s 31.90 GB 长上下文下速度稳定
    DFlash 开启 pp1024 / tg128 3607.3 ms 9.21 ms 283.9 tok/s 109.4 tok/s 4.777 s 34.13 GB 短上下文加速明显
    DFlash 开启 pp4096 / tg128 15439.9 ms 44.67 ms 265.3 tok/s 22.6 tok/s 21.114 s 31.90 GB 触发 fallback,回退普通引擎

    三、DFlash 加速效果

    对比项 普通模式 DFlash 模式 提升
    pp1024 / tg128 生成速度 23.0 tok/s 109.4 tok/s 约 4.76 倍
    pp1024 / tg128 E2E 总耗时 8.985 s 4.777 s 约快 46.8%
    pp4096 / tg128 生成速度 22.6 tok/s 22.6 tok/s 无提升,已 fallback
    pp4096 / tg128 E2E 总耗时 18.500 s 21.114 s 略慢

    四、DFlash 日志观察

    项目 观察结果
    DFlash 是否成功启用 成功
    Draft 模型路径 /Users/hao/.omlx/models/z-lab/Qwen3.6-27B-DFlash
    DFlash max_ctx 4096
    短上下文 acceptance 约 85.9% - 93.8%
    短上下文日志速度 约 20.4 - 27.0 tok/s(与 Benchmark 口径不完全一致)
    长上下文行为 4096 >= 4096 时自动 fallback 到 BatchedEngine
    结论 DFlash 对短上下文非常有效,长上下文基本无收益

    五、连续批处理测试(对 Agent 有意义)

    模式 Batch tg TPS Speedup pp TPS pp TPS/req TTFT E2E
    普通 BatchedEngine 1x 23.0 tok/s 1.00x 299.7 tok/s 299.7 tok/s 3416.4 ms 8.985 s
    普通 BatchedEngine 2x 39.6 tok/s 1.72x 297.5 tok/s 148.8 tok/s 6757.2 ms 13.353 s

    多请求并发时,总吞吐能提升到 39.6 tok/s。


    六、SpecPrefill / TurboQuant 测试

    功能 测试结果 结论
    SpecPrefill 成功加载过 draft 模型 功能可用,但不建议当前常驻
    SpecPrefill Draft Huihui-Qwen3.5-9B-abliterated-mlx-4bit 9B draft 偏大,不适合长期 Agent
    TurboQuant 8bit KV 成功启用 可省 KV cache,非必需
    TurboQuant 4bit KV 启用成功,但内存回收压力大 不建议常驻
    DFlash + SpecPrefill + TurboQuant 能跑,但出现内存压力 不适合长期稳定运行

    七、关键日志风险

    日志 含义
    DFlash context fallback: 4096 >= 4096 上下文达到 4096 后,DFlash 回退普通引擎
    active_memory=56.66GB exceeds safe threshold 内存占用超过安全阈值
    Emergency reclaim failed 模型回收压力大,不适合常驻 Agent

    八、最终推荐配置

    1. Hermes / Agent 常驻配置(推荐长期使用)

    设置项 推荐值
    模型 Qwen3.6-27B-8bit
    DFlash 关闭
    SpecPrefill 关闭
    TurboQuant KV Cache 关闭
    Temperature 0.3 - 0.5
    Top P 0.9 - 0.95
    Top K 20
    Max Tokens 2048
    CTX Window 默认或 8192
    适用场景 Hermes、OpenClaw、Codex、本地 Agent、长时间自动化任务

    原因:普通 BatchedEngine 稳定,速度 22-23 tok/s,内存 30-32GB。

    2. 短任务高速配置(一次性生成)

    设置项 推荐值
    模型 Qwen3.6-27B-8bit
    DFlash 开启
    Draft Model z-lab/Qwen3.6-27B-DFlash
    SpecPrefill 关闭
    TurboQuant KV Cache 关闭
    Temperature 0.5 - 0.6
    Top P 0.95
    Top K 20
    CTX Window 4096
    Max Tokens 1024 - 2048
    适用场景 电商文案、标题、私信、脚本、卖点、批量改写

    原因:短上下文生成速度从 23.0 → 109.4 tok/s,提升约 4.76 倍。


    九、一句话总结

    用途 推荐配置
    Hermes / Agent 长期运行 普通 BatchedEngine,关闭所有实验功能
    短文案 / 批量生成 / 快速输出 开 DFlash,关闭 SpecPrefill 和 TurboQuant
    长上下文资料分析 普通 BatchedEngine,按需测试 TurboQuant
    不推荐常驻 DFlash + SpecPrefill + TurboQuant 全开

    十、最终结论

    Qwen3.6-27B-8bit 在 oMLX 上普通模式已经很稳,Agent 常驻优先稳定;
    DFlash 适合短上下文高速生成,但不适合作为 Hermes 主力常驻配置。

    AI硬件
  • 登录

  • 没有帐号? 注册

  • 登录或注册以进行搜索。
  • 第一个帖子
    最后一个帖子
0
  • 版块
  • 最新
  • 标签
  • 热门
  • 用户
  • 群组