跳转至内容
  • 版块
  • 最新
  • 标签
  • 热门
  • 用户
  • 群组
皮肤
  • 浅色
  • Brite
  • Cerulean
  • Cosmo
  • Flatly
  • Journal
  • Litera
  • Lumen
  • Lux
  • Materia
  • Minty
  • Morph
  • Pulse
  • Sandstone
  • Simplex
  • Sketchy
  • Spacelab
  • United
  • Yeti
  • Zephyr
  • 深色
  • Cyborg
  • Darkly
  • Quartz
  • Slate
  • Solar
  • Superhero
  • Vapor

  • 默认(不使用皮肤)
  • 不使用皮肤
折叠
品牌标识

抡锤者

S

sirwang

@sirwang
关于
帖子
21
主题
1
分享
0
群组
0
粉丝
0
关注
0

帖子

最新 最佳 有争议的

  • 关于INTEL 的B70 PRO。
    S sirwang

    居然比被老特回复,那我就把前几天的简单LLM测试发一下数据,这是我前几天朋友圈发的:

    第一手资料来了,vLLM 本地运行 Qwen3-8B 总占用32G, 权重占用8.8G/KV Cache占23,系统框架0.8G。 57.08 tokens/s,13.16 秒内生成了 751 个 token(包括思考过程和正式回复)。开启推理模式的情况下还能保持近 60 tokens/s,这表现还是相当让人满意的,这只是一块显卡。不到300W的功耗。和4090比起来还是相当给力的。现在用的FP8,改天试试FP16和多用户并发压榨测试,看能坚持得住几个人。新模型正在下载。个人感觉还是 qwen3.6-27b的会更帅一些。不接受反驳。

    平台整体系统架构冗余度非常大。 还有很深的潜力可以挖,当然,还没有正式进入生产环节。不知道同时运行3个视频生成流+一个本地大模型反推会是啥样的能耗表现……

    开机...400W 只有两张卡运行-600瓦 如果四张卡同时运行起来……看来我电费交少了……

    5cd500f9ec89dc47c1520bdef825d9e2.jpg
    eb7cf98e0e2f2fd25363a30ddee462b7.jpg
    ac4328e86565b7f3f6dc33bb227f0518.jpg

    AI硬件

  • 关于INTEL 的B70 PRO。
    S sirwang

    手里有INTEL 的 B70PRO 显卡,新发布的 32G显存。
    可以用comfyui,用 z-image 生图,会强过4090, 但LTX/WAN上边,没办法720视频,适配的一塌糊涂。我都快没有信心去测试了。 comfyui也没办法更新。我正在调试。调试完之后第一时间来发报告。

    AI硬件

  • 关于INTEL 的B70 PRO。
    S sirwang

    https://github.com/intel/llm-scaler/tree/main

    这是INTEL 官方公开的支持 B50/60/70 系列显卡的 comfyui 的docker 地址。他们还是做了不少适配的。下边有表:

    https://github.com/intel/llm-scaler/tree/main#supported-models

    Model Name FP16 Dynamic Online FP8 Dynamic Online Int4 MXFP4 Notes
    openai/gpt-oss-20b ✅
    openai/gpt-oss-120b ✅
    deepseek-ai/DeepSeek-R1-Distill-Qwen-1.5B ✅ ✅ ✅
    deepseek-ai/DeepSeek-R1-Distill-Qwen-7B ✅ ✅ ✅
    deepseek-ai/DeepSeek-R1-Distill-Llama-8B ✅ ✅ ✅
    deepseek-ai/DeepSeek-R1-Distill-Qwen-14B ✅ ✅ ✅
    deepseek-ai/DeepSeek-R1-Distill-Qwen-32B ✅ ✅ ✅
    deepseek-ai/DeepSeek-R1-Distill-Llama-70B ✅ ✅ ✅
    deepseek-ai/DeepSeek-R1-0528-Qwen3-8B ✅ ✅ ✅
    deepseek-ai/DeepSeek-V2-Lite ✅ ✅ export VLLM_MLA_DISABLE=1
    deepseek-ai/deepseek-coder-33b-instruct ✅ ✅ ✅
    Qwen/Qwen3-8B ✅ ✅ ✅
    Qwen/Qwen3-14B ✅ ✅ ✅
    Qwen/Qwen3-32B ✅ ✅ ✅
    Qwen/Qwen3-30B-A3B ✅ ✅ ✅
    Qwen/Qwen3-235B-A22B ✅
    Qwen/Qwen3-Coder-30B-A3B-Instruct ✅ ✅ ✅
    Qwen/Qwen3-Coder-Next ✅ ✅
    Qwen/Qwen3.5-27B ✅ ✅ ✅
    Qwen/Qwen3.5-35B-A3B ✅ ✅ ✅
    Qwen/Qwen3.5-122B-A10B ✅ ✅
    Qwen/QwQ-32B ✅ ✅ ✅
    mistralai/Ministral-8B-Instruct-2410 ✅ ✅ ✅
    mistralai/Mixtral-8x7B-Instruct-v0.1 ✅ ✅ ✅
    meta-llama/Llama-3.1-8B ✅ ✅ ✅
    meta-llama/Llama-3.1-70B ✅ ✅ ✅
    baichuan-inc/Baichuan2-7B-Chat ✅ ✅ ✅ with chat_template
    baichuan-inc/Baichuan2-13B-Chat ✅ ✅ ✅ with chat_template
    THUDM/CodeGeex4-All-9B ✅ ✅ ✅ with chat_template
    zai-org/GLM-4-9B-0414 ✅ use bfloat16
    zai-org/GLM-4-32B-0414 ✅ use bfloat16
    zai-org/GLM-4.5-Air ✅ ✅
    zai-org/GLM-4.7-Flash ✅ ✅
    ByteDance-Seed/Seed-OSS-36B-Instruct ✅ ✅ ✅
    miromind-ai/MiroThinker-v1.5-30B ✅ ✅ ✅
    tencent/Hunyuan-0.5B-Instruct ✅ ✅ ✅ follow the guide in here
    tencent/Hunyuan-7B-Instruct ✅ ✅ ✅ follow the guide in here
    Qwen/Qwen2-VL-7B-Instruct ✅ ✅ ✅
    Qwen/Qwen2.5-VL-7B-Instruct ✅ ✅ ✅
    Qwen/Qwen2.5-VL-32B-Instruct ✅ ✅ ✅
    Qwen/Qwen2.5-VL-72B-Instruct ✅ ✅ ✅
    Qwen/Qwen3-VL-4B-Instruct ✅ ✅ ✅
    Qwen/Qwen3-VL-8B-Instruct ✅ ✅ ✅
    Qwen/Qwen3-VL-30B-A3B-Instruct ✅ ✅ ✅
    openbmb/MiniCPM-V-2_6 ✅ ✅ ✅
    openbmb/MiniCPM-V-4 ✅ ✅ ✅
    openbmb/MiniCPM-V-4_5 ✅ ✅ ✅
    OpenGVLab/InternVL2-8B ✅ ✅ ✅
    OpenGVLab/InternVL3-8B ✅ ✅ ✅
    OpenGVLab/InternVL3_5-8B ✅ ✅ ✅
    OpenGVLab/InternVL3_5-30B-A3B ✅ ✅ ✅
    rednote-hilab/dots.ocr ✅ ✅ ✅
    ByteDance-Seed/UI-TARS-7B-DPO ✅ ✅ ✅
    google/gemma-3-12b-it ✅ use bfloat16
    google/gemma-3-27b-it ✅ use bfloat16
    THUDM/GLM-4v-9B ✅ ✅ ✅ with --hf-overrides and chat_template
    zai-org/GLM-4.1V-9B-Base ✅ ✅ ✅
    zai-org/GLM-4.1V-9B-Thinking ✅ ✅ ✅
    zai-org/Glyph ✅ ✅ ✅
    opendatalab/MinerU2.5-2509-1.2B ✅ ✅ ✅
    baidu/ERNIE-4.5-VL-28B-A3B-Thinking ✅ ✅ ✅
    zai-org/GLM-4.6V-Flash ✅ ✅ ✅ pip install transformers==5.0.0rc0 first
    PaddlePaddle/PaddleOCR-VL ✅ ✅ ✅ follow the guide in here
    deepseek-ai/DeepSeek-OCR ✅ ✅ ✅
    deepseek-ai/DeepSeek-OCR-2 ✅ ✅ ✅ There may be accuracy issues when using --quantization fp8
    moonshotai/Kimi-VL-A3B-Thinking-2506 ✅ ✅ ✅
    Qwen/Qwen2.5-Omni-7B ✅ ✅ ✅
    Qwen/Qwen3-Omni-30B-A3B-Instruct ✅ ✅ ✅
    openai/whisper-medium ✅ ✅ ✅
    openai/whisper-large-v3 ✅ ✅ ✅
    Qwen/Qwen3-Embedding-8B ✅ ✅ ✅
    Qwen3-VL-Embedding-2B/8B ✅ ✅ ✅ follow the guide in here
    BAAI/bge-m3 ✅ ✅ ✅
    BAAI/bge-large-en-v1.5 ✅ ✅ ✅
    Qwen/Qwen3-Reranker-8B ✅ ✅ ✅
    Qwen3-VL-Reranker-2B/8B ✅ ✅ ✅ follow the guide in here
    BAAI/bge-reranker-large ✅ ✅ ✅
    BAAI/bge-reranker-v2-m3 ✅ ✅ ✅

    AI硬件

  • 软路由及内网穿透 - 请教各位老大
    S sirwang

    其实最方便的,还是群晖的NAS。用它家自己的二级域名。再就是 CLOUDFLARE,这个还是比较稳定的,但认真的不知道这个现在这么嚣张哪天也被禁了。所以啊.... NAS那个可能还是最方便的。 但 cloudflare 的ssl 和 直链接口以及登录邮件确认,真香啊....

    网络技术

  • 虽迟但到,交作业了
    S sirwang

    @terry 知道那是你儿子,哇哈哈哈。🤝

    AI硬件

  • 关于INTEL 的B70 PRO。
    S sirwang

    @t68823878 可以看到intel官方对于 AIGC的前景还是看好的,他们有一个团队去做这方面的技术支持,在comfyui的官方有了一个新的版本的comfyui去支持INTEL的卡。 这是其1. 2 是在不同的模型适配上, wan/ltx2.3这些都OK了。有些LORA我还没试,可能有些弱, 至于视频放大和一些用到cuda 和 nv gpu 的这些插件/custom node 就不要想了,虽然有些有 xpu 的支持,但性能还是有不少欠缺的。

    他们官方为了解决入手门槛的问题,也紧急制作了docker 来让客户一键安装,但‘成也萧何败也萧何’ docker 的封闭性让 comfyui 的版本升级、pip配套环境的升级、git网络的使用都各种问题。

    我已经建议他们将 comfyui 目录完全给映射到本地了。但现在的还是用起来极度别扭,一旦更新costom node 版本不对 整个docker就崩溃,当然,这更多是我的问题。 我尝试着去部署刘悦的这几个流,部署4天了。还没成功。等成功后我来给大家汇报它的效率以及1、2、3甚至4张卡的联合使用的效率。

    同时也会根据老特他儿子的建议去跑一下Qwen3.6-27B ,他的建议是Qwen3.6-27B IQ4_K_M,我还没更多去看这几个的区别。 但据他们官方说,这卡用 vllm 部署起来效率更高,请各位等我消息。

    AI硬件
  • 登录

  • 没有帐号? 注册

  • 登录或注册以进行搜索。
  • 第一个帖子
    最后一个帖子
0
  • 版块
  • 最新
  • 标签
  • 热门
  • 用户
  • 群组