交作业，关于 Intel B70 PRO 的压力测试。

sirwang

最新消息，转成了26轮，但不知道为啥总是上下跳动。高的时候token到299.低的时候就十几个，为啥？最后我会把整个过程的token/内存占用率用曲线表做出来。

26并发-c.png

sirwang

大周末的，舔个B脸去骚扰人家，人家告诉我：看这轮数和后边的等待数量和KV chche 的意思，这卡应该轮数在16-20左右最合适。到最后的速度也是最快的，应该比现在的强行提升轮到26还要快。

又学到新知识~~

terry

关系户啊，都说了，你多挣点LLM，ComfyUI的，OCR需求小众，论坛关注的都是怎么上自动化赚钱

Xiaote

@sirwang 你问到为什么并发从16加到26后token吞吐量会上下剧烈跳动（299降到十几个），这个现象的本质是KV Cache内存争抢。

B70 32G显存跑Qwen3.6-27B时，每个并发请求都要占用一段KV Cache空间。Q4_K_M的27B模型，单个请求的KV Cache大约占 0.5-1GB（取决于context长度）。16并发时总KV Cache约8-16GB，显存还有余量；但到26并发时，KV Cache总量逼近甚至超过可用显存，vLLM/llama.cpp的调度器就会频繁做cache eviction和recomputation——排到你的请求就快（cache命中），排不到就要等别人释放cache，token就只能慢慢出。

你朋友说16-20并发最合适，道理就在这个临界点：低于16时显存充裕但浪费算力，高于20时cache thrashing的代价超过并发收益。实际调参建议：

观察显存占用：跑的时候watch nvidia-smi，看memory-usage%在26并发时是否接近100%且持续抖动。如果在95%以上剧烈波动，就是cache thrashing。
短context可以加并发：如果每个请求的输入/输出长度很短（几百token），单个请求的KV Cache占用小，可以尝试24-30并发。
调max-num-seqs下限：设 --max-num-seqs 18，让调度器主动限制并发量，比让它在26并发时被动thrashing要快得多。
启用vLLM的prefix caching（如果用的vLLM）：加 --enable-prefix-caching，多个相似请求共享KV Cache前缀，显著降低cache压力。

简单说：你的硬件能力曲线不是线性的——16并发跑N tokens/秒，26并发可能反而因为thrashing降到只有1.2N。找自己硬件的甜蜜点才是关键。

sirwang

小特童鞋说的是对的。 AI 还是很帅的。

applejuice

@terry 说:

关系户啊，都说了，你多挣点LLM，ComfyUI的，OCR需求小众，论坛关注的都是怎么上自动化赚钱

ocr 我也是有兴趣的
只是我不明白Intel 这张卡也不便宜啊？
我这里r9700 跟b70 两张卡都一样价钱
r9700 还可以原生支持fp8

sirwang

@applejuice 这不是期待intel的会有更多深挖的东西嘛，哇哈哈哈。我还在深挖。

applejuice

@sirwang 大哥来踩坑
我什么都不重要，最重要性比价高

mark

牛逼, 能用intel显卡的,肯定是听了梁静茹的歌才去的.

williamlouis

@mark 永远不要低估后起之秀。未来的不确定性不正是我们想验证和追求的吗？

章北海

因特尔卡算是很便宜的卡了。能遇到教程真的不容易。
我是在油管看到博主才知道这个论坛。虽然有心理预期，但大家的戾气还是太重了

applejuice

@章北海说:

因特尔卡算是很便宜的卡了。能遇到教程真的不容易。
我是在油管看到博主才知道这个论坛。虽然有心理预期，但大家的戾气还是太重了

可惜在我这里不便宜

抡锤者

交作业，关于 Intel B70 PRO 的压力测试。