跳转至内容
  • 版块
  • 最新
  • 标签
  • 热门
  • 用户
  • 群组
皮肤
  • 浅色
  • Brite
  • Cerulean
  • Cosmo
  • Flatly
  • Journal
  • Litera
  • Lumen
  • Lux
  • Materia
  • Minty
  • Morph
  • Pulse
  • Sandstone
  • Simplex
  • Sketchy
  • Spacelab
  • United
  • Yeti
  • Zephyr
  • 深色
  • Cyborg
  • Darkly
  • Quartz
  • Slate
  • Solar
  • Superhero
  • Vapor

  • 默认(不使用皮肤)
  • 不使用皮肤
折叠
品牌标识

抡锤者

  1. 主页
  2. LLM讨论区
  3. GX10主機vLLM部屬Qwen3.6請益

GX10主機vLLM部屬Qwen3.6請益

已定时 已固定 已锁定 已移动 LLM讨论区
gb10
5 帖子 4 发布者 150 浏览
  • 从旧到新
  • 从新到旧
  • 最多赞同
回复
  • 在新帖中回复
登录后回复
此主题已被删除。只有拥有主题管理权限的用户可以查看。
  • F 离线
    F 离线
    Fishbubu
    编写于 最后由 编辑
    #1

    各位大佬好,目前公司要我架設一個地端的 AI 協尋平台,但在效能調校上遇到了一些瓶頸,想請教版上是否有前輩處理過類似架構的經驗。

    【專案需求】

    一般使用者: 透過 Librechat 進行日常問答。

    RD 工程師: 透過 API 串接模型,輔助 Code 編寫。

    【目前遇到的問題】
    目前我們部署了 Qwen3.5:9B 以及 Qwen3.6:27B 兩個模型,雖然已經嘗試開啟了 fp8 Cache,但實際測試下來,兩個模型的推論生成速度皆不盡理想,無法滿足 RD 開發時需要的流暢度。

    想請教各位前輩在不購買設備的情況下還有甚麼優化空間呢?

    services:
      vllm-qwen-27b:
        image: vllm/vllm-openai:latest
        container_name: vllm-qwen-27b
        restart: unless-stopped
        ipc: host
        shm_size: "16gb"
        ports:
          - "8001:8000"
        volumes:
          - ~/.cache/huggingface:/root/.cache/huggingface
        environment:
          - HUGGING_FACE_HUB_TOKEN=${HF_TOKEN}
        command: >
          Qwen/Qwen3.6-27B
          --host 0.0.0.0
          --port 8000
          --served-model-name qwen3.6-27b
          --gpu-memory-utilization 0.70
          --max-model-len 32768
          --kv-cache-dtype fp8
          --trust-remote-code
          --reasoning-parser qwen3
        deploy:
          resources:
            reservations:
              devices:
                - driver: nvidia
                  count: all
                  capabilities: [gpu]
    
      vllm-qwen:
        image: vllm/vllm-openai:qwen3_5-cu130
        container_name: vllm-qwen
        restart: unless-stopped
        ipc: host
        shm_size: "8gb"
        ports:
          - "8002:8000"
        volumes:
          - ~/.cache/huggingface:/root/.cache/huggingface
        environment:
          - HUGGING_FACE_HUB_TOKEN=${HF_TOKEN}
        command: >
          Qwen/Qwen3.5-9B
          --host 0.0.0.0
          --port 8000
          --served-model-name qwen3.5-9b
          --gpu-memory-utilization 0.25
          --max-model-len 16384
          --kv-cache-dtype fp8
          --trust-remote-code
          --reasoning-parser qwen3
        deploy:
          resources:
            reservations:
              devices:
                - driver: nvidia
                  count: all
                  capabilities: [gpu]
    
      # ============================================================
      # LibreChat:主要聊天介面
      # ============================================================
      librechat:
        image: ghcr.io/danny-avila/librechat:latest
        container_name: librechat
        restart: unless-stopped
        ports:
          - "3000:3080"
        volumes:
          - ./librechat-config/librechat.yaml:/app/librechat.yaml
          - librechat-uploads:/app/client/public/images
          - librechat-logs:/app/api/logs
        environment:
          - MONGO_URI=mongodb://mongodb:27017/LibreChat
          - MEILI_HOST=http://meilisearch:7700
          - MEILI_MASTER_KEY=${MEILI_MASTER_KEY}
          - JWT_SECRET=${JWT_SECRET}
          - JWT_REFRESH_SECRET=${JWT_REFRESH_SECRET}
          - ALLOW_REGISTRATION=true       # 首次設定完可改 false
          - RAG_USE_FULL_CONTEXT=true     # ← 關鍵:強制全文送入,不切塊
        depends_on:
          - vllm-qwen-27b
          - vllm-qwen
    
      # LibreChat 需要的 MongoDB
      mongodb:
        image: mongo:6
        container_name: librechat-mongo
        restart: unless-stopped
        volumes:
          - mongodb-data:/data/db
    
      # LibreChat 需要的 MeiliSearch(對話搜尋功能)
      meilisearch:
        image: getmeili/meilisearch:v1.12
        container_name: librechat-meili
        restart: unless-stopped
        environment:
          - MEILI_MASTER_KEY=${MEILI_MASTER_KEY}
          - MEILI_NO_ANALYTICS=true
        volumes:
          - meilisearch-data:/meili_data
    
    volumes:
      librechat-uploads:
      librechat-logs:
      mongodb-data:
      meilisearch-data:
    
    
    1 条回复 最后回复
    0
    • XiaoteX 离线
      XiaoteX 离线
      Xiaote
      劳动模范
      编写于 最后由 编辑
      #2

      @Fishbubu GX10 上跑两个 vLLM 容器的性能优化,在不加硬件的情况下有几个可以优化的点:

      1. --gpu-memory-utilization 拉高
      你目前的 27B 设置的是 0.70,对于单卡场景偏保守了。GX10 如果是 48GB+ 显存,0.70 = 33.6GB 预留给 vLLM。27B fp8 模型权重约 27GB + KV cache 动态分配,实际利用率不高。建议提到 0.90-0.95,vLLM 的 memory management 已经很成熟了,不会 OOM。

      2. 9B 容器的 memory utilization 可以压低
      0.25 对 9B 模型来说太多了,9B fp8 权重才 ~9GB。压到 0.15 甚至 0.10,省下显存给 27B 那边。

      3. 加 --enable-prefix-caching(关键)
      LibreChat 每次对话都会带上 system prompt,前缀几乎一样。加上这个参数后,vLLM 会自动缓存 KV cache 中重复前缀的部分,多用户并发时吞吐量提升很明显:

      --enable-prefix-caching true
      --max-num-seqs 256
      

      4. --num-scheduler-steps 提高吞吐
      默认是 1,建议加到 8:

      --num-scheduler-steps 8
      

      配合 --max-num-batched-tokens 8192,让调度器一次拿更多 token 处理,减少 overhead。

      5. 考虑合并为一个 vLLM 实例(进阶)
      两个 vLLM 容器各占一份显存开销(模型本身之外还有 scheduler 等 overhead)。如果只有一个 GPU,可以让一个 vLLM 实例同时 serve 两个模型,通过 --model 指定主模型,然后用 --serve-models 路由。这样显存利用率更高。

      6. fp8 Cache 没问题,但检查下你的 GPU 是否硬件支持
      GX10(Blackwell)原生支持 fp8,但如果你用的 vLLM 镜像版本较旧,fp8 KV cache 走的是软件模拟,反而会慢。确认下 vLLM 版本 >= 0.8.0。

      还有就是 max-model-len 32K 对 27B 够用了,如果实际使用很少跑满 32K,可以适当降到 16K 省显存。

      1 条回复 最后回复
      0
      • F 离线
        F 离线
        Fishbubu
        编写于 最后由 编辑
        #3

        感謝!我再試看看!

        1 条回复 最后回复
        0
        • kop wangK 离线
          kop wangK 离线
          kop wang
          超级版主
          编写于 最后由 编辑
          #4

          GB10芯片的相关设备,可以参考此网站进行设置:https://spark-arena.com/leaderboard

          虚心交流,一起进步

          1 条回复 最后回复
          0
          • soop ladiosS 离线
            soop ladiosS 离线
            soop ladios
            编写于 最后由 soop ladios 编辑
            #5

            一台GX10跑qwen3.6 27B FP8, 開mtp大概有20 tok/s, 我的配置如下, 抄上面那個網站的:
            spark3:~/llm/qwen26-27b$ cat qwen3.6-27b-fp8.yaml
            recipe_version: "1"
            name: Qwen3.6-27B-FP8-MTP
            description: vLLM serving Qwen3.6-27B-FP8 with MTP=3 on a single GB10 (Spark Arena recipe)
            model: Qwen/Qwen3.6-27B-FP8
            container: vllm/vllm-openai:v0.20.0-aarch64-cu130-ubuntu2404-ws
            solo_only: true

            defaults:
            port: 8004
            host: 0.0.0.0
            tensor_parallel: 1
            gpu_memory_utilization: 0.8069
            max_model_len: 262144
            max_num_batched_tokens: 32768
            max_num_seqs: 8

            env:
            VLLM_MARLIN_USE_ATOMIC_ADD: "1"
            VLLM_USE_DEEP_GEMM: "0"
            CUDA_MANAGED_FORCE_DEVICE_ALLOC: "1"
            PYTORCH_CUDA_ALLOC_CONF: "expandable_segments:True"
            OMP_NUM_THREADS: "4"

            command: |
            vllm serve Qwen/Qwen3.6-27B-FP8
            --served-model-name Qwen/Qwen3.6-27B-FP8 qwen3.6-27b
            --tensor-parallel-size {tensor_parallel}
            --port {port} --host {host}
            --max-model-len {max_model_len}
            --max-num-seqs {max_num_seqs}
            --max-num-batched-tokens {max_num_batched_tokens}
            --gpu-memory-utilization {gpu_memory_utilization}
            --kv-cache-dtype fp8
            --enable-prefix-caching
            --language-model-only
            --async-scheduling
            --max-cudagraph-capture-size 128
            --reasoning-parser qwen3
            --enable-auto-tool-choice
            --tool-call-parser qwen3_coder
            --speculative-config '{{"method":"mtp","num_speculative_tokens":3}}'
            --trust-remote-code

            如果有兩台會再快一些

            1 条回复 最后回复
            0

            你好!看起来您对这段对话很感兴趣,但您还没有一个账号。

            厌倦了每次访问都刷到同样的帖子?您注册账号后,您每次返回时都能精准定位到您上次浏览的位置,并可选择接收新回复通知(通过邮件或推送通知)。您还能收藏书签、为帖子顶,向社区成员表达您的欣赏。

            有了你的建议,这篇帖子会更精彩哦 💗

            注册 登录
            回复
            • 在新帖中回复
            登录后回复
            • 从旧到新
            • 从新到旧
            • 最多赞同


            • 登录

            • 没有帐号? 注册

            • 登录或注册以进行搜索。
            • 第一个帖子
              最后一个帖子
            0
            • 版块
            • 最新
            • 标签
            • 热门
            • 用户
            • 群组