跳转至内容
  • 版块
  • 最新
  • 标签
  • 热门
  • 用户
  • 群组
皮肤
  • 浅色
  • Brite
  • Cerulean
  • Cosmo
  • Flatly
  • Journal
  • Litera
  • Lumen
  • Lux
  • Materia
  • Minty
  • Morph
  • Pulse
  • Sandstone
  • Simplex
  • Sketchy
  • Spacelab
  • United
  • Yeti
  • Zephyr
  • 深色
  • Cyborg
  • Darkly
  • Quartz
  • Slate
  • Solar
  • Superhero
  • Vapor

  • 默认(不使用皮肤)
  • 不使用皮肤
折叠
品牌标识

抡锤者

  1. 主页
  2. AI硬件
  3. r9700 32G速度总算达标了,27B MTP,能上50t/s

r9700 32G速度总算达标了,27B MTP,能上50t/s

已定时 已固定 已锁定 已移动 AI硬件
10 帖子 4 发布者 341 浏览 1 关注中
  • 从旧到新
  • 从新到旧
  • 最多赞同
回复
  • 在新帖中回复
登录后回复
此主题已被删除。只有拥有主题管理权限的用户可以查看。
  • S 离线
    S 离线
    sospda
    编写于 最后由 编辑
    #1

    Q4_K_M · 1500 tokens 测试结果

    | 指标        | 值                                 |
    |-------------|------------------------------------|
    | 生成速度    | 53.5 tok/s 🚀                      |
    | 总耗时      | 28.0s                              |
    | MTP 接受率  | 60.8%(1592 draft / 968 accepted) |
    | Prompt 处理 | 115.4 tok/s(prompt cache 命中)   |
    

    2026-06-03 06-47-09屏幕截图.png

    draft=3

    1 条回复 最后回复
    1
    • S 离线
      S 离线
      sospda
      编写于 最后由 sospda 编辑
      #2

      最大功耗限制在280W, 不限制应该还能更高点。 不过性能损失应该很小。

      -c 65536 -ngl 99
      --reasoning auto
      --spec-type draft-mtp --spec-draft-n-max 3
      --flash-attn on
      -ub 512 \

      1 条回复 最后回复
      0
      • Tony WangT 离线
        Tony WangT 离线
        Tony Wang
        超级版主
        编写于 最后由 编辑
        #3
        • Prompt 处理 | 115.4 tok/s(prompt cache 命中) -- 这个速度似乎很低.

        我没有让hermes自己测试过, 我都是用 LLM框架自带的测试 或者llm bench的脚本测试的. 我的M5pro 能到 300 - 400.

        我觉得R9700应该能到600以上吧?

        I 1 条回复 最后回复
        0
        • S 离线
          S 离线
          sospda
          编写于 最后由 编辑
          #4

          llama不知道有什么标准测试, 都是自己随便跑一下简单测试。如果有标准测试只要时间不是太长,都可以测一下,有个对比。 模型前后换了20多个了,每个都跑很长时间的测试,时间也不允许。

          1 条回复 最后回复
          0
          • Tony WangT 离线
            Tony WangT 离线
            Tony Wang
            超级版主
            编写于 最后由 Tony Wang 编辑
            #5

            我之前用的是 llm_context_benchmarks , 支持多种框架. 测试时间主要看上下文的长度, 主要测试 64k, 128k就行. 要开 KV Q8. 测试时间并不长, 几分钟就能跑完.

            这个工具star不多, 是ChatGPT推荐给我的, 你也可以找找有更多star 的llm bench工具, 还是有不少的.

            1 条回复 最后回复
            0
            • S 离线
              S 离线
              sospda
              编写于 最后由 编辑
              #6

              好的,谢谢。不同框架都试了,llama,ollama,vllm,lm stduio,然后35b,32b,30b,27b ,然后带MTP,然后q4、q5、q6, 说试了20多个模型感觉说少了,哈哈。一直没时间找测试的软件。自己瞎测一个,感觉不好用的就pass了,也没有调过参数。后面才知道参数对速度影响也挺大的。现在基本确定27b mtp版本的,推理能力和响应速度都不错。

              1 条回复 最后回复
              1
              • Tony WangT 离线
                Tony WangT 离线
                Tony Wang
                超级版主
                编写于 最后由 编辑
                #7

                我觉得你R9700的prefill 肯定是没问题的, 只是hermes给你的答案不对

                1 条回复 最后回复
                0
                • Tony WangT Tony Wang
                  • Prompt 处理 | 115.4 tok/s(prompt cache 命中) -- 这个速度似乎很低.

                  我没有让hermes自己测试过, 我都是用 LLM框架自带的测试 或者llm bench的脚本测试的. 我的M5pro 能到 300 - 400.

                  我觉得R9700应该能到600以上吧?

                  I 离线
                  I 离线
                  iocat
                  编写于 最后由 编辑
                  #8

                  @Tony-Wang 这个应该是提示词很短导致的

                  Tony WangT 1 条回复 最后回复
                  0
                  • I iocat

                    @Tony-Wang 这个应该是提示词很短导致的

                    Tony WangT 离线
                    Tony WangT 离线
                    Tony Wang
                    超级版主
                    编写于 最后由 编辑
                    #9

                    @iocat

                    有可能, 估计是提示词很短, 又加上了 thinking, 导致有效首字很慢, 看起来像是prefill 很慢的样子.

                    1 条回复 最后回复
                    0
                    • S 离线
                      S 离线
                      spur6897
                      编写于 最后由 编辑
                      #10

                      老兄, 能分享下參數嗎?

                      1 条回复 最后回复
                      0

                      你好!看起来您对这段对话很感兴趣,但您还没有一个账号。

                      厌倦了每次访问都刷到同样的帖子?您注册账号后,您每次返回时都能精准定位到您上次浏览的位置,并可选择接收新回复通知(通过邮件或推送通知)。您还能收藏书签、为帖子顶,向社区成员表达您的欣赏。

                      有了你的建议,这篇帖子会更精彩哦 💗

                      注册 登录
                      回复
                      • 在新帖中回复
                      登录后回复
                      • 从旧到新
                      • 从新到旧
                      • 最多赞同


                      • 登录

                      • 没有帐号? 注册

                      • 登录或注册以进行搜索。
                      • 第一个帖子
                        最后一个帖子
                      0
                      • 版块
                      • 最新
                      • 标签
                      • 热门
                      • 用户
                      • 群组