跳转至内容
  • 版块
  • 最新
  • 标签
  • 热门
  • 用户
  • 群组
皮肤
  • 浅色
  • Brite
  • Cerulean
  • Cosmo
  • Flatly
  • Journal
  • Litera
  • Lumen
  • Lux
  • Materia
  • Minty
  • Morph
  • Pulse
  • Sandstone
  • Simplex
  • Sketchy
  • Spacelab
  • United
  • Yeti
  • Zephyr
  • 深色
  • Cyborg
  • Darkly
  • Quartz
  • Slate
  • Solar
  • Superhero
  • Vapor

  • 默认(不使用皮肤)
  • 不使用皮肤
折叠
品牌标识

抡锤者

  1. 主页
  2. 随便聊聊
  3. 请问有没有人可以帮助提供 AMD AI MAX 395 跑Qwen3.6-27B的速度情况?

请问有没有人可以帮助提供 AMD AI MAX 395 跑Qwen3.6-27B的速度情况?

已定时 已固定 已锁定 已移动 随便聊聊
8 帖子 7 发布者 119 浏览
  • 从旧到新
  • 从新到旧
  • 最多赞同
回复
  • 在新帖中回复
登录后回复
此主题已被删除。只有拥有主题管理权限的用户可以查看。
  • JamesPhlaoJ 离线
    JamesPhlaoJ 离线
    JamesPhlao
    编写于 最后由 编辑
    #1

    我想购买一个128G的

    1. 主要是看中他满载功耗低,
    2. 统一内存又没有显存焦虑
      就是不知道跑Q4_K_M 或者 Q8 ,搭配opencode或者harmes在真实环境下,一般的速度分别是多少?

    多谢各位大佬!

    1 条回复 最后回复
    0
    • williamlouisW 在线
      williamlouisW 在线
      williamlouis
      超级版主
      编写于 最后由 编辑
      #2

      我记得好像是 5t/s.
      Strix Halo 的推理性能受限于内存带宽而非算力:
      UMA 带宽约 215 GB/s(理论值)
      27B 模型的 decode 主要是权重流带宽瓶颈
      因此量化到 Q8_0 比 BF16 快约 75%,Q4 比 Q8 更快
      需要高速推理可以被劝退了。

      精度 权重大小 显存占用 Decode 速度 适用场景
      BF16 (vLLM) 51.2 GB ~105 GB ~4.3 t/s 需原生精度、Vision 输入、Responses API
      Q8_0 (llama.cpp) ~27 GB ~35 GB ~7.5 t/s 日常对话、Agent 循环、速度优先
      Q4_K_M ~16.8 GB 更低 ~10-12 t/s 长上下文、多模型并发

      个人主页:xlkj.org Telegram https://t.me/xlkjorg

      1 条回复 最后回复
      1
      • terryT 离线
        terryT 离线
        terry
        超级版主
        编写于 最后由 编辑
        #3

        就是不太实用,Q4量化 10t/s左右。跑Agent会慢到吐血,prefill几分钟起步。

        油管:https://www.youtube.com/@抡锤者

        1 条回复 最后回复
        0
        • 5 离线
          5 离线
          566656661
          超凡大师
          编写于 最后由 编辑
          #4

          Strix Halo只適合跑細小MoE, Dense基本上陣亡

          可以參考這個Repo

          附帶一點27B性能截圖:
          69c97069-e5bd-4ebd-959d-4eccd6aa9c1b-image.jpeg

          010f1bfe-db33-45a7-b61a-0c2235f69071-image.jpeg

          只能説短問答可用吧...

          1 条回复 最后回复
          0
          • kop wangK 离线
            kop wangK 离线
            kop wang
            超级版主
            编写于 最后由 编辑
            #5

            统一内存的方案优势在中等MoE模型,但是目前业界并没有什么拿得出手的122B这类的MoE模型。

            虚心交流,一起进步

            1 条回复 最后回复
            0
            • 5 离线
              5 离线
              566656661
              超凡大师
              编写于 最后由 编辑
              #6

              120B我只想到GPT-OSS-120B

              1 条回复 最后回复
              0
              • sirwangS 离线
                sirwangS 离线
                sirwang
                超级版主
                编写于 最后由 编辑
                #7

                昨天拿到机器了,今天中午才把comfyui和模型下载完成。今天只是测试了一些视频,这几天我会测试一些LLM的东西。我个人还是比较期待‘大模型+comfyui’完全本地运行。的这种需求。

                1 条回复 最后回复
                1
                • lxbsL 离线
                  lxbsL 离线
                  lxbs
                  编写于 最后由 编辑
                  #8

                  eb545d4d-4ed6-44a3-914c-86132c00d474-image.jpeg

                  02b0a55e-ada6-4068-b479-dab05ba095e1-image.jpeg

                  1 条回复 最后回复
                  0

                  你好!看起来您对这段对话很感兴趣,但您还没有一个账号。

                  厌倦了每次访问都刷到同样的帖子?您注册账号后,您每次返回时都能精准定位到您上次浏览的位置,并可选择接收新回复通知(通过邮件或推送通知)。您还能收藏书签、为帖子顶,向社区成员表达您的欣赏。

                  有了你的建议,这篇帖子会更精彩哦 💗

                  注册 登录
                  回复
                  • 在新帖中回复
                  登录后回复
                  • 从旧到新
                  • 从新到旧
                  • 最多赞同


                  • 登录

                  • 没有帐号? 注册

                  • 第一个帖子
                    最后一个帖子
                  0
                  • 版块
                  • 最新
                  • 标签
                  • 热门
                  • 用户
                  • 群组