关于INTEL 的B70 PRO。

sirwang

把大美女也发出来。这是baidu图片找的。版权不是我的。

sirwang

模型用的官方原版的模型，没有量化。下载地址：https://huggingface.co/Qwen/Qwen3.6-27B/tree/main 一共 55.6G

墙内人

厉害了兄弟，全网最宝贵资料，简直就是外星人捕捉现场，稀有

terry

不错，非常好的参考数据，我也不知道论坛有上传文件有什么要求，我后台开放了的，zip，gz后缀文件，应该都可以传。

sirwang

@terry 应该是我上传工作流的 .json 有安全风险，不让上传吧。没事的。

terry

是我不让上传json文件，压缩成zip即可

sirwang

@terry 没问题的，代码已经上传了，编辑器的插入代码一样。以后压缩再说吧。谢谢。

李明

弱弱问一句，Intel B70 32G vs 4080s 32G，哪个算力高？好像价格差30%

applejuice

4080s 带宽比较大算例更好应该比较好
4080 快过3090
B70 不如3090
4080还支持FP8
缺点没有保家

以上资料来源都是AI

vosrock

@sirwang z-image不是几秒就能出一张图嘛，几秒和十来秒差异不大的，所以别用ZIMAGE来测试，因为都很快

sirwang

@vosrock 需要参考图然后用文生图的。不止是文生图。

sirwang

@李明 4080S的CUDA强，目前看来。如果不介意钱，就买4080S。

sirwang

8并发。 40轮。压下来了，相当帅。差不多180 token/s，我个人觉得已经超过我的期望值了。

墙内人

外星人观摩现场，很少看到如此详细的英特尔显卡实测数据

Gerry Wang

你的这个信息很有价值，如果仅仅生图就能强过4090的话，已经可以有很多本地的事情能做了。LTX/WAN这边，不知道480P的测试数据如何？如果480P已经可行的话，对于一些手机短视频，我觉得已经满足了。

mraksugar

@sirwang 请继续发布inter显卡生态测试到的边界信息，谢谢。

sirwang

还在测啥？以后就是comfyui 吧，我得换版块发帖了吧

kaifan

分享一下单卡跑llmscaler数据
周末把 Qwen3.6-27B 调到了一个对于 Agentic Loop 来说还算能接受的状态。比较系统的跑了一下单请求和并行 5 rep的benchmark。pp速度还可以，但 tg还是有点慢。不过配合 vLLM 的 continuous batching，并行 token 生成整体还比较稳定。目前专门用来给Hermes agent的delegate task去收集代码库context打下手

目前唯一比较大的问题是：KV Cache 必须使用 BF16，才能达到可用的 token generation 速度，但ctx就只有43000了。另外还需要骗 vLLM，让它识别 layer architecture。希望未来能有优化过的 FP8 dequant kernel去支持fp8的kvcache。fp8的dequant比Q8_0慢很多，可惜官方docker的vllm版本还不支持除了fp8和bf16以外的kvcache dtype。可惜它和7900xtx都没有fp8的硬件支持，好像r9700有。另外autoround质量还是稍微比不过Q4的gguf

硬件比较旧 64g的ddr4 虽然比较慢，但总比 pcie4x16 快。proxmox 9.1

vLLM 单请求 qwen/qwen3.6-27b（int4 AutoRound）：

PP TTFT：1,685 ms

PP2048 TPS：1,686 ± 66 tok/s

TG512：13.7 ± 1.4 tok/s

并行测试 pp2048 tg512
Conc: 1
• TTFT(ms): 1,261
• Prefill(tok/s): 1,400
• Decode(tok/s): 13.3
• Output(tok/s): 12.9

• Conc: 2
• TTFT(ms): 1,907
• Prefill(tok/s): 925
• Decode(tok/s): 12.9
• Output(tok/s): 24.7

• Conc: 4
• TTFT(ms): 3,319
• Prefill(tok/s): 532
• Decode(tok/s): 12.7
• Output(tok/s): 46.7

• Conc: 8
• TTFT(ms): 6,231
• Prefill(tok/s): 283
• Decode(tok/s): 11.9
• Output(tok/s): 82.7

docker run 命令：

docker run -it --rm --name vllmb70 --ipc=host --shm-size=32g
--device=/dev/dri:/dev/dri --privileged -p 1234:8000
-v ~/.cache/huggingface:/root/.cache/huggingface
-e VLLM_TARGET_DEVICE=xpu
--entrypoint /bin/bash intel/llm-scaler-vllm:0.14.0-b8.2.1 -c "
source /opt/intel/oneapi/setvars.sh --force &&
sed -i 's/image_processor.max_pixels/getattr(image_processor, "max_pixels", 12845056)/g'
/usr/local/lib/python3.12/dist-packages/vllm/model_executor/models/qwen2_vl.py &&
python3 -m vllm.entrypoints.openai.api_server
--model Intel/Qwen3.6-27B-int4-AutoRound
--tokenizer Qwen/Qwen3.6-27B
--served-model-name qwen/qwen3.6-27b
--kv-cache-dtype auto
--max-model-len 65536
--gpu-memory-utilization 0.9
--enable-auto-tool-choice
--tool-call-parser qwen3_xml
--allow-deprecated-quantization
--trust-remote-code
--port 8000
--tensor-parallel-size 1
--pipeline-parallel-size 1
--enforce-eager
"

也跑了一下ltx2.3 full gpu offload比4070需要dynamic loading快10%左右 custom node很多不支持暂时不值得折腾

sirwang

@kaifan 请问这是啥卡的数据？！

kaifan

@sirwang arc pro b70

抡锤者

关于INTEL 的B70 PRO。