关于INTEL 的B70 PRO。

David Zhang

@sirwang 有空分享点真实数据，intel的卡到底啥样，还是希望有人拉出来溜溜，顶你！

哈哈哈

楼主，蹲守你的实测数据。
谢谢你的一手资料~！

Xiaote

@sirwang 感谢分享第一手Intel B70 PRO的实测数据！说实话论坛里能拿出Intel卡实测的人还真不多，这个数据很宝贵。

几个小建议供你后续测试参考：

LLM测试建议：

你测Qwen3-8B的57 tokens/s已经很不错了。如果方便的话，可以试试Qwen3.6-27B IQ4_K_M，看看B70 PRO的32G能不能扛住（预计15-16G权重+KV cache，32G应该够）
并发测试建议用vLLM的 --max-num-seqs 参数从2开始逐步往上加，观察显存占用和吞吐变化

ComfyUI问题：

Intel卡在ComfyUI上的适配确实比NVIDIA差很多。你可以试试用DirectML后端（--directml），很多PyTorch算子有Intel的优化路径
如果ComfyUI死活跑不起来，可以先试Stable Diffusion WebUI（AUTOMATIC1111），它对Intel Arc的支持比ComfyUI成熟

视频生成（LTX/WAN）720P问题：

这个大概率是Intel IPEX-LLM的算子优化还没覆盖到视频模型。建议等Intel发布新的驱动/XPU运行时再试
可以试试分辨率降到480P先验证工作流通不通

期待你的后续报告！terry说得对，真实数据比什么都重要。有不爽的地方该喷喷，有亮点也该夸夸。

? 离线

想请教一下，所谓的适配一塌糊涂，是完全跑不起来还是说跑起来很慢，或者说很多节点不能用？

sirwang

@t68823878 可以看到intel官方对于 AIGC的前景还是看好的，他们有一个团队去做这方面的技术支持，在comfyui的官方有了一个新的版本的comfyui去支持INTEL的卡。这是其1. 2 是在不同的模型适配上， wan/ltx2.3这些都OK了。有些LORA我还没试，可能有些弱，至于视频放大和一些用到cuda 和 nv gpu 的这些插件/custom node 就不要想了，虽然有些有 xpu 的支持，但性能还是有不少欠缺的。

他们官方为了解决入手门槛的问题，也紧急制作了docker 来让客户一键安装，但‘成也萧何败也萧何’ docker 的封闭性让 comfyui 的版本升级、pip配套环境的升级、git网络的使用都各种问题。

我已经建议他们将 comfyui 目录完全给映射到本地了。但现在的还是用起来极度别扭，一旦更新costom node 版本不对整个docker就崩溃，当然，这更多是我的问题。我尝试着去部署刘悦的这几个流，部署4天了。还没成功。等成功后我来给大家汇报它的效率以及1、2、3甚至4张卡的联合使用的效率。

同时也会根据老特他儿子的建议去跑一下Qwen3.6-27B ，他的建议是Qwen3.6-27B IQ4_K_M，我还没更多去看这几个的区别。但据他们官方说，这卡用 vllm 部署起来效率更高，请各位等我消息。

terry

@sirwang 说:

我已经建议他们将 comfyui 目录完全给映射到本地了。但现在的还是用起来极度别扭，一旦更新costom node 版本不对整个docker就崩溃，当然，这更多是我的问题。我尝试着去部署刘悦的这几个流，部署4天了。还没成功。等成功后我来给大家汇报它的效率以及1、2、3甚至4张卡的联合使用的效率。

同时也会根据老特他儿子的建议去跑一下Qwen3.6-27B ，他的建议是Qwen3.6-27B IQ4_K_M，我还没更多去看这几个的区别。但据他们官方说，这卡用 vllm 部署起来效率更高，请各位等我消息。

你还能给英特尔官方提建议？面子这么大吗？

sirwang

@terry 不装逼，不想挨骂，应该说不是给人家建议，应该说给人家反馈吧。哇哈哈哈。一帮技术人员，对comfyui 对工作室对最终用户的流，对破限的这些不够‘落地’是可以理解的。

terry

@sirwang 那你面子也挺大啊，我怎么没机会提建议呢？

sirwang

只是认识而已，每个技术公司的产品出来都会找一堆我们这种有些关系的公司去测试去调整。和机会啥的没关系。别想多了，很纯洁的合作关系！哇哈哈哈哈。

从大概5.1 拿到之后，comfyui 崩了不下20回了。我都快没信心去玩了。认真的头疼....

terry

@sirwang 你还认识他们，可想而知小白拿到这卡心里阴影。但是依然需要你的数据，再多发点给我们参考下，或者说下到底ComfyUI坑在哪里。

sirwang

@terry 因为驱动程序/comfyui版本等问题，所以只能用docker来驱动comfyui。这就有挺恶心的问题：

不能升级comfyui版本--除非手动打补丁，而且还不一定可以搞定。
更新costum node 各种卡死。这个和我的系统关系比较大。
更新系统配套的环境，pip 起来也特别麻烦。
因为cuda的原因，所以好多的有cuda的流只可以转到xpa或者CPU上。这就有了更多其它的问题。

现在官方优先适配 wan/ltx 这些在comfyui 官方版本里的官方的流，但那些流都是’基础流‘没有优化的。我试了锤哥推荐的刘悦的流、B站黑鹤的流、程序员萝卜、流光、原上咩等大佬比较新的流，基本上都没办法完善的运行。所以需要调节的还是很多的，甚至不如锤哥说的AMD的环境，这挺让人费劲。

但vllm 这个可能比较简单。我还在搞N卡的comfyui环境。搞好第一时间来发帖。

sirwang

https://github.com/intel/llm-scaler/tree/main

这是INTEL 官方公开的支持 B50/60/70 系列显卡的 comfyui 的docker 地址。他们还是做了不少适配的。下边有表：

https://github.com/intel/llm-scaler/tree/main#supported-models

Model Name FP16 Dynamic Online FP8 Dynamic Online Int4 MXFP4 Notes
openai/gpt-oss-20b
openai/gpt-oss-120b
deepseek-ai/DeepSeek-R1-Distill-Qwen-1.5B
deepseek-ai/DeepSeek-R1-Distill-Qwen-7B
deepseek-ai/DeepSeek-R1-Distill-Llama-8B
deepseek-ai/DeepSeek-R1-Distill-Qwen-14B
deepseek-ai/DeepSeek-R1-Distill-Qwen-32B
deepseek-ai/DeepSeek-R1-Distill-Llama-70B
deepseek-ai/DeepSeek-R1-0528-Qwen3-8B
deepseek-ai/DeepSeek-V2-Lite export VLLM_MLA_DISABLE=1
deepseek-ai/deepseek-coder-33b-instruct
Qwen/Qwen3-8B
Qwen/Qwen3-14B
Qwen/Qwen3-32B
Qwen/Qwen3-30B-A3B
Qwen/Qwen3-235B-A22B
Qwen/Qwen3-Coder-30B-A3B-Instruct
Qwen/Qwen3-Coder-Next
Qwen/Qwen3.5-27B
Qwen/Qwen3.5-35B-A3B
Qwen/Qwen3.5-122B-A10B
Qwen/QwQ-32B
mistralai/Ministral-8B-Instruct-2410
mistralai/Mixtral-8x7B-Instruct-v0.1
meta-llama/Llama-3.1-8B
meta-llama/Llama-3.1-70B
baichuan-inc/Baichuan2-7B-Chat with chat_template
baichuan-inc/Baichuan2-13B-Chat with chat_template
THUDM/CodeGeex4-All-9B with chat_template
zai-org/GLM-4-9B-0414 use bfloat16
zai-org/GLM-4-32B-0414 use bfloat16
zai-org/GLM-4.5-Air
zai-org/GLM-4.7-Flash
ByteDance-Seed/Seed-OSS-36B-Instruct
miromind-ai/MiroThinker-v1.5-30B
tencent/Hunyuan-0.5B-Instruct follow the guide in here
tencent/Hunyuan-7B-Instruct follow the guide in here
Qwen/Qwen2-VL-7B-Instruct
Qwen/Qwen2.5-VL-7B-Instruct
Qwen/Qwen2.5-VL-32B-Instruct
Qwen/Qwen2.5-VL-72B-Instruct
Qwen/Qwen3-VL-4B-Instruct
Qwen/Qwen3-VL-8B-Instruct
Qwen/Qwen3-VL-30B-A3B-Instruct
openbmb/MiniCPM-V-2_6
openbmb/MiniCPM-V-4
openbmb/MiniCPM-V-4_5
OpenGVLab/InternVL2-8B
OpenGVLab/InternVL3-8B
OpenGVLab/InternVL3_5-8B
OpenGVLab/InternVL3_5-30B-A3B
rednote-hilab/dots.ocr
ByteDance-Seed/UI-TARS-7B-DPO
google/gemma-3-12b-it use bfloat16
google/gemma-3-27b-it use bfloat16
THUDM/GLM-4v-9B with --hf-overrides and chat_template
zai-org/GLM-4.1V-9B-Base
zai-org/GLM-4.1V-9B-Thinking
zai-org/Glyph
opendatalab/MinerU2.5-2509-1.2B
baidu/ERNIE-4.5-VL-28B-A3B-Thinking
zai-org/GLM-4.6V-Flash pip install transformers==5.0.0rc0 first
PaddlePaddle/PaddleOCR-VL follow the guide in here
deepseek-ai/DeepSeek-OCR
deepseek-ai/DeepSeek-OCR-2 There may be accuracy issues when using --quantization fp8
moonshotai/Kimi-VL-A3B-Thinking-2506
Qwen/Qwen2.5-Omni-7B
Qwen/Qwen3-Omni-30B-A3B-Instruct
openai/whisper-medium
openai/whisper-large-v3
Qwen/Qwen3-Embedding-8B
Qwen3-VL-Embedding-2B/8B follow the guide in here
BAAI/bge-m3
BAAI/bge-large-en-v1.5
Qwen/Qwen3-Reranker-8B
Qwen3-VL-Reranker-2B/8B follow the guide in here
BAAI/bge-reranker-large
BAAI/bge-reranker-v2-m3

David Zhang

@sirwang 等你测试反馈

terry

这特么买个卡，跑个大模型还得去看支持列表？简直受罪。ComfyUI更是不堪入目，我想还是大多数人劝退。

sirwang

@terry 看怎么看了吧。如果文生图、文生视频、图生视频、文生语音、图片反推、视频反推这几个都有相对较好的解决方案。INTEL的卡内存大，省电，最重要的还便宜的话。老大你是否觉得有够买欲望？比如说32G的这个内存在1W块左右。

O。这个单张卡最高290瓦的电。

terry

@sirwang 我1万块为什么不买AI Pro R9700，我不需要研究任何东西，直接弄回来就能跑，说实话，我宁可多花点钱上4080S 32G，其实我也折腾xtx，纯粹是因为想弄点素材，但是没想到这卡是真好用。

sirwang

@terry 也对，看看INTEL的卡可以优化成啥样吧。AI PRO R9700价格还是不错的。而且现在的4080S 升级内存版还在涨价。但NV的生态是真好。

ezios

哈哈看着果然劝退

但是看着价格还是时不时yy一下

sirwang

OK。回来汇报来了。四张卡都驱起来了。机器有256G内存，一张卡分64G。前三张运行comfyui。后一张运行qwen3.6-27B. 测试大模型压力用的4并发。脚本和结果如下：

import urllib.request
import json
import concurrent.futures
import time

URL = "http://127.0.0.1:8091/v1/chat/completions"
HEADERS = {"Content-Type": "application/json"}
# 模拟长文本生成请求
DATA = {
    "model": "/model",
    "messages": [{"role": "user", "content": "请写一篇800字的科幻小说，描述人类第一次登陆木星的场景。"}],
    "max_tokens": 1000,
    "temperature": 0.8
}

def send_request(req_id):
    req = urllib.request.Request(URL, headers=HEADERS, data=json.dumps(DATA).encode('utf-8'))
    start_time = time.time()
    try:
        with urllib.request.urlopen(req) as response:
            res = json.loads(response.read().decode('utf-8'))
            tokens = res['usage']['completion_tokens']
            cost_time = time.time() - start_time
            print(f"请求 {req_id} 完成 | 耗时: {cost_time:.2f}s | 生成 Token: {tokens} | 速度: {tokens/cost_time:.2f} tokens/s")
    except Exception as e:
        print(f"请求 {req_id} 失败: {e}")

# 设置并发数，从 2 开始，逐步改成 4, 8, 16 试试极限
CONCURRENCY = 4 
print(f"--- 开始 vLLM 并发压测 | 并发数: {CONCURRENCY} ---")

with concurrent.futures.ThreadPoolExecutor(max_workers=CONCURRENCY) as executor:
    # 一次性发射 20 个请求排队
    executor.map(send_request, range(20))

以下是运行截图：

我画红线的是第4张卡运行vllm qwen3.6-27b的卡。

下边白底的这个是docker 的日志截图。

感觉还是相当稳的。工作室和个人用，够了。 comfyui 我去找个‘公平’的测试方法。或者大家有啥测试方法不？

sirwang

WAN2511 一张图生成96张图片的这个流，美女照，原图 2000X3000 ，成图的96张图 832x1248 。我简单看了下时间。从0.23分到0.43分，正好20秒。做为对比，我还有另外一台2080ti-22G魔改版，时间正好是快了9倍.... 这时间就差出大数来了。我还算比较满意。

2080ti-22G 同样的流，同样跑出来96个角度的图片：

2个半小时....

20分钟对2个半小时...

手里没有老特的4090-48G，否则铁定也要试一把~~~~

抡锤者

关于INTEL 的B70 PRO。