跳转至内容
  • 版块
  • 最新
  • 标签
  • 热门
  • 用户
  • 群组
皮肤
  • 浅色
  • Brite
  • Cerulean
  • Cosmo
  • Flatly
  • Journal
  • Litera
  • Lumen
  • Lux
  • Materia
  • Minty
  • Morph
  • Pulse
  • Sandstone
  • Simplex
  • Sketchy
  • Spacelab
  • United
  • Yeti
  • Zephyr
  • 深色
  • Cyborg
  • Darkly
  • Quartz
  • Slate
  • Solar
  • Superhero
  • Vapor

  • 默认(不使用皮肤)
  • 不使用皮肤
折叠
品牌标识

抡锤者

  1. 主页
  2. AI硬件
  3. M3U 96G 发一下数据供以参考

M3U 96G 发一下数据供以参考

已定时 已固定 已锁定 已移动 AI硬件
3 帖子 2 发布者 27 浏览
  • 从旧到新
  • 从新到旧
  • 最多赞同
回复
  • 在新帖中回复
登录后回复
此主题已被删除。只有拥有主题管理权限的用户可以查看。
  • K 离线
    K 离线
    kinco520
    编写于 最后由 terry 编辑
    #1

    GPT帮我总结的希望对大家有帮助:
    下面是你这次 oMLX / Qwen3.6-27B-8bit 测试数据的整理版,可以直接拿去分享。

    oMLX + Qwen3.6-27B-8bit 模型性能测试报告

    一、测试环境

    项目 内容
    推理框架 oMLX
    运行设备 Mac / Apple Silicon
    主模型 Qwen3.6-27B-8bit
    DFlash Draft z-lab/Qwen3.6-27B-DFlash
    主要用途 Hermes / OpenClaw / Agent 本地模型服务
    测试方式 oMLX Benchmark + server.log 观察
    重点指标 tg TPS、TTFT、E2E、Peak Mem、DFlash acceptance

    二、核心 Benchmark 对比

    模式 测试项 TTFT TPOT Prompt 处理速度 生成速度 tg TPS E2E 总耗时 峰值内存 备注
    普通 BatchedEngine pp1024 / tg128 3416.4 ms 43.84 ms 299.7 tok/s 23.0 tok/s 8.985 s 30.45 GB 稳定,适合 Agent 常驻
    普通 BatchedEngine pp4096 / tg128 12828.8 ms 44.66 ms 319.3 tok/s 22.6 tok/s 18.500 s 31.90 GB 长上下文下速度稳定
    DFlash 开启 pp1024 / tg128 3607.3 ms 9.21 ms 283.9 tok/s 109.4 tok/s 4.777 s 34.13 GB 短上下文加速明显
    DFlash 开启 pp4096 / tg128 15439.9 ms 44.67 ms 265.3 tok/s 22.6 tok/s 21.114 s 31.90 GB 触发 fallback,回退普通引擎

    三、DFlash 加速效果

    对比项 普通模式 DFlash 模式 提升
    pp1024 / tg128 生成速度 23.0 tok/s 109.4 tok/s 约 4.76 倍
    pp1024 / tg128 E2E 总耗时 8.985 s 4.777 s 约快 46.8%
    pp4096 / tg128 生成速度 22.6 tok/s 22.6 tok/s 无提升,已 fallback
    pp4096 / tg128 E2E 总耗时 18.500 s 21.114 s 略慢

    四、DFlash 日志观察

    项目 观察结果
    DFlash 是否成功启用 成功
    Draft 模型路径 /Users/hao/.omlx/models/z-lab/Qwen3.6-27B-DFlash
    DFlash max_ctx 4096
    短上下文 acceptance 约 85.9% - 93.8%
    短上下文日志速度 约 20.4 - 27.0 tok/s(与 Benchmark 口径不完全一致)
    长上下文行为 4096 >= 4096 时自动 fallback 到 BatchedEngine
    结论 DFlash 对短上下文非常有效,长上下文基本无收益

    五、连续批处理测试(对 Agent 有意义)

    模式 Batch tg TPS Speedup pp TPS pp TPS/req TTFT E2E
    普通 BatchedEngine 1x 23.0 tok/s 1.00x 299.7 tok/s 299.7 tok/s 3416.4 ms 8.985 s
    普通 BatchedEngine 2x 39.6 tok/s 1.72x 297.5 tok/s 148.8 tok/s 6757.2 ms 13.353 s

    多请求并发时,总吞吐能提升到 39.6 tok/s。


    六、SpecPrefill / TurboQuant 测试

    功能 测试结果 结论
    SpecPrefill 成功加载过 draft 模型 功能可用,但不建议当前常驻
    SpecPrefill Draft Huihui-Qwen3.5-9B-abliterated-mlx-4bit 9B draft 偏大,不适合长期 Agent
    TurboQuant 8bit KV 成功启用 可省 KV cache,非必需
    TurboQuant 4bit KV 启用成功,但内存回收压力大 不建议常驻
    DFlash + SpecPrefill + TurboQuant 能跑,但出现内存压力 不适合长期稳定运行

    七、关键日志风险

    日志 含义
    DFlash context fallback: 4096 >= 4096 上下文达到 4096 后,DFlash 回退普通引擎
    active_memory=56.66GB exceeds safe threshold 内存占用超过安全阈值
    Emergency reclaim failed 模型回收压力大,不适合常驻 Agent

    八、最终推荐配置

    1. Hermes / Agent 常驻配置(推荐长期使用)

    设置项 推荐值
    模型 Qwen3.6-27B-8bit
    DFlash 关闭
    SpecPrefill 关闭
    TurboQuant KV Cache 关闭
    Temperature 0.3 - 0.5
    Top P 0.9 - 0.95
    Top K 20
    Max Tokens 2048
    CTX Window 默认或 8192
    适用场景 Hermes、OpenClaw、Codex、本地 Agent、长时间自动化任务

    原因:普通 BatchedEngine 稳定,速度 22-23 tok/s,内存 30-32GB。

    2. 短任务高速配置(一次性生成)

    设置项 推荐值
    模型 Qwen3.6-27B-8bit
    DFlash 开启
    Draft Model z-lab/Qwen3.6-27B-DFlash
    SpecPrefill 关闭
    TurboQuant KV Cache 关闭
    Temperature 0.5 - 0.6
    Top P 0.95
    Top K 20
    CTX Window 4096
    Max Tokens 1024 - 2048
    适用场景 电商文案、标题、私信、脚本、卖点、批量改写

    原因:短上下文生成速度从 23.0 → 109.4 tok/s,提升约 4.76 倍。


    九、一句话总结

    用途 推荐配置
    Hermes / Agent 长期运行 普通 BatchedEngine,关闭所有实验功能
    短文案 / 批量生成 / 快速输出 开 DFlash,关闭 SpecPrefill 和 TurboQuant
    长上下文资料分析 普通 BatchedEngine,按需测试 TurboQuant
    不推荐常驻 DFlash + SpecPrefill + TurboQuant 全开

    十、最终结论

    Qwen3.6-27B-8bit 在 oMLX 上普通模式已经很稳,Agent 常驻优先稳定;
    DFlash 适合短上下文高速生成,但不适合作为 Hermes 主力常驻配置。

    terryT 1 条回复 最后回复
    1
    • K kinco520

      GPT帮我总结的希望对大家有帮助:
      下面是你这次 oMLX / Qwen3.6-27B-8bit 测试数据的整理版,可以直接拿去分享。

      oMLX + Qwen3.6-27B-8bit 模型性能测试报告

      一、测试环境

      项目 内容
      推理框架 oMLX
      运行设备 Mac / Apple Silicon
      主模型 Qwen3.6-27B-8bit
      DFlash Draft z-lab/Qwen3.6-27B-DFlash
      主要用途 Hermes / OpenClaw / Agent 本地模型服务
      测试方式 oMLX Benchmark + server.log 观察
      重点指标 tg TPS、TTFT、E2E、Peak Mem、DFlash acceptance

      二、核心 Benchmark 对比

      模式 测试项 TTFT TPOT Prompt 处理速度 生成速度 tg TPS E2E 总耗时 峰值内存 备注
      普通 BatchedEngine pp1024 / tg128 3416.4 ms 43.84 ms 299.7 tok/s 23.0 tok/s 8.985 s 30.45 GB 稳定,适合 Agent 常驻
      普通 BatchedEngine pp4096 / tg128 12828.8 ms 44.66 ms 319.3 tok/s 22.6 tok/s 18.500 s 31.90 GB 长上下文下速度稳定
      DFlash 开启 pp1024 / tg128 3607.3 ms 9.21 ms 283.9 tok/s 109.4 tok/s 4.777 s 34.13 GB 短上下文加速明显
      DFlash 开启 pp4096 / tg128 15439.9 ms 44.67 ms 265.3 tok/s 22.6 tok/s 21.114 s 31.90 GB 触发 fallback,回退普通引擎

      三、DFlash 加速效果

      对比项 普通模式 DFlash 模式 提升
      pp1024 / tg128 生成速度 23.0 tok/s 109.4 tok/s 约 4.76 倍
      pp1024 / tg128 E2E 总耗时 8.985 s 4.777 s 约快 46.8%
      pp4096 / tg128 生成速度 22.6 tok/s 22.6 tok/s 无提升,已 fallback
      pp4096 / tg128 E2E 总耗时 18.500 s 21.114 s 略慢

      四、DFlash 日志观察

      项目 观察结果
      DFlash 是否成功启用 成功
      Draft 模型路径 /Users/hao/.omlx/models/z-lab/Qwen3.6-27B-DFlash
      DFlash max_ctx 4096
      短上下文 acceptance 约 85.9% - 93.8%
      短上下文日志速度 约 20.4 - 27.0 tok/s(与 Benchmark 口径不完全一致)
      长上下文行为 4096 >= 4096 时自动 fallback 到 BatchedEngine
      结论 DFlash 对短上下文非常有效,长上下文基本无收益

      五、连续批处理测试(对 Agent 有意义)

      模式 Batch tg TPS Speedup pp TPS pp TPS/req TTFT E2E
      普通 BatchedEngine 1x 23.0 tok/s 1.00x 299.7 tok/s 299.7 tok/s 3416.4 ms 8.985 s
      普通 BatchedEngine 2x 39.6 tok/s 1.72x 297.5 tok/s 148.8 tok/s 6757.2 ms 13.353 s

      多请求并发时,总吞吐能提升到 39.6 tok/s。


      六、SpecPrefill / TurboQuant 测试

      功能 测试结果 结论
      SpecPrefill 成功加载过 draft 模型 功能可用,但不建议当前常驻
      SpecPrefill Draft Huihui-Qwen3.5-9B-abliterated-mlx-4bit 9B draft 偏大,不适合长期 Agent
      TurboQuant 8bit KV 成功启用 可省 KV cache,非必需
      TurboQuant 4bit KV 启用成功,但内存回收压力大 不建议常驻
      DFlash + SpecPrefill + TurboQuant 能跑,但出现内存压力 不适合长期稳定运行

      七、关键日志风险

      日志 含义
      DFlash context fallback: 4096 >= 4096 上下文达到 4096 后,DFlash 回退普通引擎
      active_memory=56.66GB exceeds safe threshold 内存占用超过安全阈值
      Emergency reclaim failed 模型回收压力大,不适合常驻 Agent

      八、最终推荐配置

      1. Hermes / Agent 常驻配置(推荐长期使用)

      设置项 推荐值
      模型 Qwen3.6-27B-8bit
      DFlash 关闭
      SpecPrefill 关闭
      TurboQuant KV Cache 关闭
      Temperature 0.3 - 0.5
      Top P 0.9 - 0.95
      Top K 20
      Max Tokens 2048
      CTX Window 默认或 8192
      适用场景 Hermes、OpenClaw、Codex、本地 Agent、长时间自动化任务

      原因:普通 BatchedEngine 稳定,速度 22-23 tok/s,内存 30-32GB。

      2. 短任务高速配置(一次性生成)

      设置项 推荐值
      模型 Qwen3.6-27B-8bit
      DFlash 开启
      Draft Model z-lab/Qwen3.6-27B-DFlash
      SpecPrefill 关闭
      TurboQuant KV Cache 关闭
      Temperature 0.5 - 0.6
      Top P 0.95
      Top K 20
      CTX Window 4096
      Max Tokens 1024 - 2048
      适用场景 电商文案、标题、私信、脚本、卖点、批量改写

      原因:短上下文生成速度从 23.0 → 109.4 tok/s,提升约 4.76 倍。


      九、一句话总结

      用途 推荐配置
      Hermes / Agent 长期运行 普通 BatchedEngine,关闭所有实验功能
      短文案 / 批量生成 / 快速输出 开 DFlash,关闭 SpecPrefill 和 TurboQuant
      长上下文资料分析 普通 BatchedEngine,按需测试 TurboQuant
      不推荐常驻 DFlash + SpecPrefill + TurboQuant 全开

      十、最终结论

      Qwen3.6-27B-8bit 在 oMLX 上普通模式已经很稳,Agent 常驻优先稳定;
      DFlash 适合短上下文高速生成,但不适合作为 Hermes 主力常驻配置。

      terryT 离线
      terryT 离线
      terry
      编写于 最后由 编辑
      #2

      @kinco520 我让豆包把它转化为了markdown格式,以后发帖你让GPT直接出markdown代码即可。论坛支持markdown代码,剋方便做成表格之类的富文本。

      K 1 条回复 最后回复
      0
      • terryT terry

        @kinco520 我让豆包把它转化为了markdown格式,以后发帖你让GPT直接出markdown代码即可。论坛支持markdown代码,剋方便做成表格之类的富文本。

        K 离线
        K 离线
        kinco520
        编写于 最后由 编辑
        #3

        @terry 又学到新东西了,以后知道怎么发帖了

        1 条回复 最后回复
        0

        你好!看起来您对这段对话很感兴趣,但您还没有一个账号。

        厌倦了每次访问都刷到同样的帖子?您注册账号后,您每次返回时都能精准定位到您上次浏览的位置,并可选择接收新回复通知(通过邮件或推送通知)。您还能收藏书签、为帖子顶,向社区成员表达您的欣赏。

        有了你的建议,这篇帖子会更精彩哦 💗

        注册 登录
        回复
        • 在新帖中回复
        登录后回复
        • 从旧到新
        • 从新到旧
        • 最多赞同


        • 登录

        • 没有帐号? 注册

        • 登录或注册以进行搜索。
        • 第一个帖子
          最后一个帖子
        0
        • 版块
        • 最新
        • 标签
        • 热门
        • 用户
        • 群组