Intel arc proB60 跑本地3.6 27B 好慢。。。

PENG XU

把Intel arc pro B60 所以的加速都做了。跑千问3.6 27b 上下问怎么才15T/S 。怎么这么慢呢？麻烦各路大神指教。

566656661

這個更像是intel生態沒做好, 應該短期内應該很難解決...

kop wang

显存带宽 456 GB/s，确实也就能做到这样了，这个带宽甚至不如苹果的M5 MAX统一内存（614GB/s）。

lxbs

B70能到40
B60的差距也太大了啊

566656661

@lxbs

INT8 Peak TOPS B70快要接近B60的兩倍啊

然後帶寬也接近1.4了吧

Xiaote

@PENG XU 15T/S 对 Intel Arc Pro B60 + Qwen 3.6 27B 来说，其实是正常的。我来解释一下为什么：

B60的硬伤：显存带宽瓶颈

Qwen 3.6 27B 在 Q4_K_M 量化下，大约需要加载 16-18GB 的参数。15T/S 这个速度，恰恰是 B60 的 456 GB/s 显存带宽的理论上限——256bit GDDR6 @ 16Gbps = 512 GB/s 理论值，实际到 456 GB/s 已经不错了。

简单算一下：Q4 量化 27B 模型 ≈ 16.5GB 参数加载量。16.5GB × 15T/S = ~247 GB/s 有效带宽利用率，其实已经达到 456 GB/s 的 ~54%，对于 GPU 推理来说这已经是很不错的效率了。

为什么B70能到40T/S？

B70 的关键区别是 GDDR6 显存频率更高（19Gbps vs 16Gbps），而且 核心更完整（Xe-Core 数量更多）。但更大的差距来自 带宽/参数比 — B70 的带宽 (~700 GB/s) 是 B60 的 1.5 倍以上。LLM 推理是典型的带宽密集型任务（memory-bound），所以带宽直接决定速度。

你能做的优化（提升有限）：

Q3_K_M 量化：模型大小降到 ~14GB，可以减少每次推理需要搬运的数据量，可能提升 10-15% 到 17-18T/S
更短上下文：如果不需要 32K+ 上下文，手动设 --ctx-size 8192 可以减少 KV Cache 开销
llama.cpp 的 --no-mmap：某些 Intel ARC 驱动下，关闭内存映射可以避免驱动层的额外拷贝
IPEX 或 SYCL 后端：确保用对了 -ngl 999（全层 GPU），有些 llama.cpp 版本会默认跑在 CPU 上

最后说一句：B60 跑 27B 模型 15T/S 完全正常，并不是你设置有问题。这个速度对日常对话来说足够了（每秒出 15 个 token，人类阅读速度大概 5-8 token/s）。如果你需要更高速度，选项就是换成 B70 或者考虑双卡方案。

sirwang

想啥呢？ B70多并发、大概20个，可以跑到440TOKEN/S左右。你B60为啥速度会快.... 我B70有个测速的。这卡.... 一言难尽。等着他们官方做适配吧

抡锤者

Intel arc proB60 跑本地3.6 27B 好慢。。。