跳转至内容
  • 版块
  • 最新
  • 标签
  • 热门
  • 用户
  • 群组
皮肤
  • 浅色
  • Brite
  • Cerulean
  • Cosmo
  • Flatly
  • Journal
  • Litera
  • Lumen
  • Lux
  • Materia
  • Minty
  • Morph
  • Pulse
  • Sandstone
  • Simplex
  • Sketchy
  • Spacelab
  • United
  • Yeti
  • Zephyr
  • 深色
  • Cyborg
  • Darkly
  • Quartz
  • Slate
  • Solar
  • Superhero
  • Vapor

  • 默认(不使用皮肤)
  • 不使用皮肤
折叠
品牌标识

抡锤者

F

Fishbubu

@Fishbubu
关于
帖子
2
主题
1
分享
0
群组
0
粉丝
0
关注
0

帖子

最新 最佳 有争议的

  • GX10主機vLLM部屬Qwen3.6請益
    F Fishbubu

    感謝!我再試看看!

    LLM讨论区 gb10

  • GX10主機vLLM部屬Qwen3.6請益
    F Fishbubu

    各位大佬好,目前公司要我架設一個地端的 AI 協尋平台,但在效能調校上遇到了一些瓶頸,想請教版上是否有前輩處理過類似架構的經驗。

    【專案需求】

    一般使用者: 透過 Librechat 進行日常問答。

    RD 工程師: 透過 API 串接模型,輔助 Code 編寫。

    【目前遇到的問題】
    目前我們部署了 Qwen3.5:9B 以及 Qwen3.6:27B 兩個模型,雖然已經嘗試開啟了 fp8 Cache,但實際測試下來,兩個模型的推論生成速度皆不盡理想,無法滿足 RD 開發時需要的流暢度。

    想請教各位前輩在不購買設備的情況下還有甚麼優化空間呢?

    services:
      vllm-qwen-27b:
        image: vllm/vllm-openai:latest
        container_name: vllm-qwen-27b
        restart: unless-stopped
        ipc: host
        shm_size: "16gb"
        ports:
          - "8001:8000"
        volumes:
          - ~/.cache/huggingface:/root/.cache/huggingface
        environment:
          - HUGGING_FACE_HUB_TOKEN=${HF_TOKEN}
        command: >
          Qwen/Qwen3.6-27B
          --host 0.0.0.0
          --port 8000
          --served-model-name qwen3.6-27b
          --gpu-memory-utilization 0.70
          --max-model-len 32768
          --kv-cache-dtype fp8
          --trust-remote-code
          --reasoning-parser qwen3
        deploy:
          resources:
            reservations:
              devices:
                - driver: nvidia
                  count: all
                  capabilities: [gpu]
    
      vllm-qwen:
        image: vllm/vllm-openai:qwen3_5-cu130
        container_name: vllm-qwen
        restart: unless-stopped
        ipc: host
        shm_size: "8gb"
        ports:
          - "8002:8000"
        volumes:
          - ~/.cache/huggingface:/root/.cache/huggingface
        environment:
          - HUGGING_FACE_HUB_TOKEN=${HF_TOKEN}
        command: >
          Qwen/Qwen3.5-9B
          --host 0.0.0.0
          --port 8000
          --served-model-name qwen3.5-9b
          --gpu-memory-utilization 0.25
          --max-model-len 16384
          --kv-cache-dtype fp8
          --trust-remote-code
          --reasoning-parser qwen3
        deploy:
          resources:
            reservations:
              devices:
                - driver: nvidia
                  count: all
                  capabilities: [gpu]
    
      # ============================================================
      # LibreChat:主要聊天介面
      # ============================================================
      librechat:
        image: ghcr.io/danny-avila/librechat:latest
        container_name: librechat
        restart: unless-stopped
        ports:
          - "3000:3080"
        volumes:
          - ./librechat-config/librechat.yaml:/app/librechat.yaml
          - librechat-uploads:/app/client/public/images
          - librechat-logs:/app/api/logs
        environment:
          - MONGO_URI=mongodb://mongodb:27017/LibreChat
          - MEILI_HOST=http://meilisearch:7700
          - MEILI_MASTER_KEY=${MEILI_MASTER_KEY}
          - JWT_SECRET=${JWT_SECRET}
          - JWT_REFRESH_SECRET=${JWT_REFRESH_SECRET}
          - ALLOW_REGISTRATION=true       # 首次設定完可改 false
          - RAG_USE_FULL_CONTEXT=true     # ← 關鍵:強制全文送入,不切塊
        depends_on:
          - vllm-qwen-27b
          - vllm-qwen
    
      # LibreChat 需要的 MongoDB
      mongodb:
        image: mongo:6
        container_name: librechat-mongo
        restart: unless-stopped
        volumes:
          - mongodb-data:/data/db
    
      # LibreChat 需要的 MeiliSearch(對話搜尋功能)
      meilisearch:
        image: getmeili/meilisearch:v1.12
        container_name: librechat-meili
        restart: unless-stopped
        environment:
          - MEILI_MASTER_KEY=${MEILI_MASTER_KEY}
          - MEILI_NO_ANALYTICS=true
        volumes:
          - meilisearch-data:/meili_data
    
    volumes:
      librechat-uploads:
      librechat-logs:
      mongodb-data:
      meilisearch-data:
    
    
    LLM讨论区 gb10
  • 登录

  • 没有帐号? 注册

  • 登录或注册以进行搜索。
  • 第一个帖子
    最后一个帖子
0
  • 版块
  • 最新
  • 标签
  • 热门
  • 用户
  • 群组