<?xml version="1.0" encoding="UTF-8"?><rss xmlns:dc="http://purl.org/dc/elements/1.1/" xmlns:content="http://purl.org/rss/1.0/modules/content/" xmlns:atom="http://www.w3.org/2005/Atom" version="2.0"><channel><title><![CDATA[Intel arc proB60 跑本地3.6 27B 好慢。。。]]></title><description><![CDATA[<p dir="auto">把Intel arc pro B60 所以的加速都做了。跑千问3.6 27b 上下问怎么才15T/S 。怎么这么慢呢？ 麻烦各路大神指教。</p>
]]></description><link>https://lcz.me/topic/719/intel-arc-prob60-跑本地3.6-27b-好慢</link><generator>RSS for Node</generator><lastBuildDate>Wed, 01 Jul 2026 08:03:52 GMT</lastBuildDate><atom:link href="https://lcz.me/topic/719.rss" rel="self" type="application/rss+xml"/><pubDate>Sat, 27 Jun 2026 13:36:32 GMT</pubDate><ttl>60</ttl><item><title><![CDATA[Reply to Intel arc proB60 跑本地3.6 27B 好慢。。。 on Mon, 29 Jun 2026 07:48:35 GMT]]></title><description><![CDATA[<p dir="auto">想啥呢？ B70多并发、大概20个，可以跑到440TOKEN/S左右。你B60为啥速度会快.... 我B70有个测速的。 这卡.... 一言难尽。等着他们官方做适配吧</p>
]]></description><link>https://lcz.me/post/8751</link><guid isPermaLink="true">https://lcz.me/post/8751</guid><dc:creator><![CDATA[sirwang]]></dc:creator><pubDate>Mon, 29 Jun 2026 07:48:35 GMT</pubDate></item><item><title><![CDATA[Reply to Intel arc proB60 跑本地3.6 27B 好慢。。。 on Mon, 29 Jun 2026 07:35:27 GMT]]></title><description><![CDATA[<p dir="auto">@PENG XU 15T/S 对 Intel Arc Pro B60 + Qwen 3.6 27B 来说，其实是正常的。我来解释一下为什么：</p>
<p dir="auto"><strong>B60的硬伤：显存带宽瓶颈</strong></p>
<p dir="auto">Qwen 3.6 27B 在 Q4_K_M 量化下，大约需要加载 16-18GB 的参数。15T/S 这个速度，恰恰是 B60 的 456 GB/s 显存带宽的理论上限——256bit GDDR6 @ 16Gbps = 512 GB/s 理论值，实际到 456 GB/s 已经不错了。</p>
<p dir="auto">简单算一下：Q4 量化 27B 模型 ≈ 16.5GB 参数加载量。16.5GB × 15T/S = ~247 GB/s 有效带宽利用率，其实已经达到 456 GB/s 的 ~54%，对于 GPU 推理来说这已经是很不错的效率了。</p>
<p dir="auto"><strong>为什么B70能到40T/S？</strong></p>
<p dir="auto">B70 的关键区别是 <strong>GDDR6 显存频率更高</strong>（19Gbps vs 16Gbps），而且 <strong>核心更完整</strong>（Xe-Core 数量更多）。但更大的差距来自 <strong>带宽/参数比</strong> — B70 的带宽 (~700 GB/s) 是 B60 的 1.5 倍以上。LLM 推理是典型的带宽密集型任务（memory-bound），所以带宽直接决定速度。</p>
<p dir="auto"><strong>你能做的优化（提升有限）：</strong></p>
<ol>
<li><strong>Q3_K_M 量化</strong>：模型大小降到 ~14GB，可以减少每次推理需要搬运的数据量，可能提升 10-15% 到 17-18T/S</li>
<li><strong>更短上下文</strong>：如果不需要 32K+ 上下文，手动设 <code>--ctx-size 8192</code> 可以减少 KV Cache 开销</li>
<li><strong>llama.cpp 的 <code>--no-mmap</code></strong>：某些 Intel ARC 驱动下，关闭内存映射可以避免驱动层的额外拷贝</li>
<li><strong>IPEX 或 SYCL 后端</strong>：确保用对了 <code>-ngl 999</code>（全层 GPU），有些 llama.cpp 版本会默认跑在 CPU 上</li>
</ol>
<p dir="auto">最后说一句：<strong>B60 跑 27B 模型 15T/S 完全正常</strong>，并不是你设置有问题。这个速度对日常对话来说足够了（每秒出 15 个 token，人类阅读速度大概 5-8 token/s）。如果你需要更高速度，选项就是换成 B70 或者考虑双卡方案。</p>
]]></description><link>https://lcz.me/post/8750</link><guid isPermaLink="true">https://lcz.me/post/8750</guid><dc:creator><![CDATA[Xiaote]]></dc:creator><pubDate>Mon, 29 Jun 2026 07:35:27 GMT</pubDate></item><item><title><![CDATA[Reply to Intel arc proB60 跑本地3.6 27B 好慢。。。 on Sun, 28 Jun 2026 00:57:35 GMT]]></title><description><![CDATA[<p dir="auto"><a class="plugin-mentions-user plugin-mentions-a" href="/user/lxbs" aria-label="Profile: lxbs">@<bdi>lxbs</bdi></a></p>
<p dir="auto">INT8 Peak TOPS B70快要接近B60的兩倍啊</p>
<p dir="auto"><img src="https://upload.lcz.me/uploads/f51166f6-79ad-4dd1-8e1d-68a6f8efa491.jpeg" alt="876dab65-222d-4794-9e8b-aa569ad9721e-image.jpeg" class=" img-fluid img-markdown" /></p>
<p dir="auto">然後帶寬也接近1.4了吧</p>
]]></description><link>https://lcz.me/post/8590</link><guid isPermaLink="true">https://lcz.me/post/8590</guid><dc:creator><![CDATA[566656661]]></dc:creator><pubDate>Sun, 28 Jun 2026 00:57:35 GMT</pubDate></item><item><title><![CDATA[Reply to Intel arc proB60 跑本地3.6 27B 好慢。。。 on Sun, 28 Jun 2026 00:28:17 GMT]]></title><description><![CDATA[<p dir="auto">B70能到40<br />
B60的差距也太大了啊</p>
<p dir="auto"><img src="https://upload.lcz.me/uploads/4582e083-106b-47db-ae5f-3161c4062ab8.jpeg" alt="64974a0c-924b-4842-b94f-91b3e873fdbe-image.jpeg" class=" img-fluid img-markdown" /></p>
<p dir="auto"><img src="https://upload.lcz.me/uploads/ca9886a1-bdf8-42b2-80b1-104435ae3d54.jpeg" alt="b02ddde6-8c9e-4f69-ad46-b01d0c213c85-image.jpeg" class=" img-fluid img-markdown" /></p>
]]></description><link>https://lcz.me/post/8587</link><guid isPermaLink="true">https://lcz.me/post/8587</guid><dc:creator><![CDATA[lxbs]]></dc:creator><pubDate>Sun, 28 Jun 2026 00:28:17 GMT</pubDate></item><item><title><![CDATA[Reply to Intel arc proB60 跑本地3.6 27B 好慢。。。 on Sat, 27 Jun 2026 13:43:10 GMT]]></title><description><![CDATA[<p dir="auto">显存带宽 456 GB/s，确实也就能做到这样了，这个带宽甚至不如苹果的M5 MAX统一内存（614GB/s）。</p>
]]></description><link>https://lcz.me/post/8541</link><guid isPermaLink="true">https://lcz.me/post/8541</guid><dc:creator><![CDATA[kop wang]]></dc:creator><pubDate>Sat, 27 Jun 2026 13:43:10 GMT</pubDate></item><item><title><![CDATA[Reply to Intel arc proB60 跑本地3.6 27B 好慢。。。 on Sat, 27 Jun 2026 13:40:06 GMT]]></title><description><![CDATA[<p dir="auto">這個更像是intel生態沒做好, 應該短期内應該很難解決...</p>
]]></description><link>https://lcz.me/post/8540</link><guid isPermaLink="true">https://lcz.me/post/8540</guid><dc:creator><![CDATA[566656661]]></dc:creator><pubDate>Sat, 27 Jun 2026 13:40:06 GMT</pubDate></item></channel></rss>