跳转至内容
  • 版块
  • 最新
  • 标签
  • 热门
  • 用户
  • 群组
皮肤
  • 浅色
  • Brite
  • Cerulean
  • Cosmo
  • Flatly
  • Journal
  • Litera
  • Lumen
  • Lux
  • Materia
  • Minty
  • Morph
  • Pulse
  • Sandstone
  • Simplex
  • Sketchy
  • Spacelab
  • United
  • Yeti
  • Zephyr
  • 深色
  • Cyborg
  • Darkly
  • Quartz
  • Slate
  • Solar
  • Superhero
  • Vapor

  • 默认(不使用皮肤)
  • 不使用皮肤
折叠
品牌标识

抡锤者

  1. 主页
  2. LLM讨论区
  3. Intel arc proB60 跑本地3.6 27B 好慢。。。

Intel arc proB60 跑本地3.6 27B 好慢。。。

已定时 已固定 已锁定 已移动 LLM讨论区
7 帖子 6 发布者 136 浏览
  • 从旧到新
  • 从新到旧
  • 最多赞同
回复
  • 在新帖中回复
登录后回复
此主题已被删除。只有拥有主题管理权限的用户可以查看。
  • PENG XUP 离线
    PENG XUP 离线
    PENG XU
    编写于 最后由 编辑
    #1

    把Intel arc pro B60 所以的加速都做了。跑千问3.6 27b 上下问怎么才15T/S 。怎么这么慢呢? 麻烦各路大神指教。

    1 条回复 最后回复
    0
    • 5 在线
      5 在线
      566656661
      超凡大师
      编写于 最后由 编辑
      #2

      這個更像是intel生態沒做好, 應該短期内應該很難解決...

      1 条回复 最后回复
      0
      • kop wangK 在线
        kop wangK 在线
        kop wang
        超级版主
        编写于 最后由 编辑
        #3

        显存带宽 456 GB/s,确实也就能做到这样了,这个带宽甚至不如苹果的M5 MAX统一内存(614GB/s)。

        虚心交流,一起进步

        1 条回复 最后回复
        1
        • lxbsL 离线
          lxbsL 离线
          lxbs
          编写于 最后由 编辑
          #4

          B70能到40
          B60的差距也太大了啊

          64974a0c-924b-4842-b94f-91b3e873fdbe-image.jpeg

          b02ddde6-8c9e-4f69-ad46-b01d0c213c85-image.jpeg

          5 1 条回复 最后回复
          0
          • lxbsL lxbs

            B70能到40
            B60的差距也太大了啊

            64974a0c-924b-4842-b94f-91b3e873fdbe-image.jpeg

            b02ddde6-8c9e-4f69-ad46-b01d0c213c85-image.jpeg

            5 在线
            5 在线
            566656661
            超凡大师
            编写于 最后由 编辑
            #5

            @lxbs

            INT8 Peak TOPS B70快要接近B60的兩倍啊

            876dab65-222d-4794-9e8b-aa569ad9721e-image.jpeg

            然後帶寬也接近1.4了吧

            1 条回复 最后回复
            0
            • XiaoteX 在线
              XiaoteX 在线
              Xiaote
              劳动模范
              编写于 最后由 编辑
              #6

              @PENG XU 15T/S 对 Intel Arc Pro B60 + Qwen 3.6 27B 来说,其实是正常的。我来解释一下为什么:

              B60的硬伤:显存带宽瓶颈

              Qwen 3.6 27B 在 Q4_K_M 量化下,大约需要加载 16-18GB 的参数。15T/S 这个速度,恰恰是 B60 的 456 GB/s 显存带宽的理论上限——256bit GDDR6 @ 16Gbps = 512 GB/s 理论值,实际到 456 GB/s 已经不错了。

              简单算一下:Q4 量化 27B 模型 ≈ 16.5GB 参数加载量。16.5GB × 15T/S = ~247 GB/s 有效带宽利用率,其实已经达到 456 GB/s 的 ~54%,对于 GPU 推理来说这已经是很不错的效率了。

              为什么B70能到40T/S?

              B70 的关键区别是 GDDR6 显存频率更高(19Gbps vs 16Gbps),而且 核心更完整(Xe-Core 数量更多)。但更大的差距来自 带宽/参数比 — B70 的带宽 (~700 GB/s) 是 B60 的 1.5 倍以上。LLM 推理是典型的带宽密集型任务(memory-bound),所以带宽直接决定速度。

              你能做的优化(提升有限):

              1. Q3_K_M 量化:模型大小降到 ~14GB,可以减少每次推理需要搬运的数据量,可能提升 10-15% 到 17-18T/S
              2. 更短上下文:如果不需要 32K+ 上下文,手动设 --ctx-size 8192 可以减少 KV Cache 开销
              3. llama.cpp 的 --no-mmap:某些 Intel ARC 驱动下,关闭内存映射可以避免驱动层的额外拷贝
              4. IPEX 或 SYCL 后端:确保用对了 -ngl 999(全层 GPU),有些 llama.cpp 版本会默认跑在 CPU 上

              最后说一句:B60 跑 27B 模型 15T/S 完全正常,并不是你设置有问题。这个速度对日常对话来说足够了(每秒出 15 个 token,人类阅读速度大概 5-8 token/s)。如果你需要更高速度,选项就是换成 B70 或者考虑双卡方案。

              1 条回复 最后回复
              0
              • sirwangS 离线
                sirwangS 离线
                sirwang
                超级版主
                编写于 最后由 编辑
                #7

                想啥呢? B70多并发、大概20个,可以跑到440TOKEN/S左右。你B60为啥速度会快.... 我B70有个测速的。 这卡.... 一言难尽。等着他们官方做适配吧

                1 条回复 最后回复
                1

                你好!看起来您对这段对话很感兴趣,但您还没有一个账号。

                厌倦了每次访问都刷到同样的帖子?您注册账号后,您每次返回时都能精准定位到您上次浏览的位置,并可选择接收新回复通知(通过邮件或推送通知)。您还能收藏书签、为帖子顶,向社区成员表达您的欣赏。

                有了你的建议,这篇帖子会更精彩哦 💗

                注册 登录
                回复
                • 在新帖中回复
                登录后回复
                • 从旧到新
                • 从新到旧
                • 最多赞同


                • 登录

                • 没有帐号? 注册

                • 第一个帖子
                  最后一个帖子
                0
                • 版块
                • 最新
                • 标签
                • 热门
                • 用户
                • 群组