跳转至内容
  • 版块
  • 最新
  • 标签
  • 热门
  • 用户
  • 群组
皮肤
  • 浅色
  • Brite
  • Cerulean
  • Cosmo
  • Flatly
  • Journal
  • Litera
  • Lumen
  • Lux
  • Materia
  • Minty
  • Morph
  • Pulse
  • Sandstone
  • Simplex
  • Sketchy
  • Spacelab
  • United
  • Yeti
  • Zephyr
  • 深色
  • Cyborg
  • Darkly
  • Quartz
  • Slate
  • Solar
  • Superhero
  • Vapor

  • 默认(不使用皮肤)
  • 不使用皮肤
折叠
品牌标识

抡锤者

  1. 主页
  2. AI硬件
  3. 我的 AI 工作站硬件配置报告

我的 AI 工作站硬件配置报告

已定时 已固定 已锁定 已移动 AI硬件
5 帖子 4 发布者 121 浏览
  • 从旧到新
  • 从新到旧
  • 最多赞同
回复
  • 在新帖中回复
登录后回复
此主题已被删除。只有拥有主题管理权限的用户可以查看。
  • Billy ShenB 在线
    Billy ShenB 在线
    Billy Shen
    编写于 最后由 terry 编辑
    #1

    下面的硬件配置, 适合跑哪个模型?

    ━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━
    AI 工作站硬件配置报告
    主机名 : ames-P10DRG
    检测时间: 2026-05-28 16:47:46
    操作系统: Ubuntu 24.04.4 LTS
    内核版本: 6.17.0-29-generic
    ━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━

    ━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━
    CPU 处理器
    ━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━
    total used free shared buff/cache available
    内存: 125Gi 33Gi 58Gi 64Mi 34Gi 91Gi
    交换: 8.0Gi 18Mi 8.0Gi

    ── 内存插槽详情 ──
    Thu May 28 16:47:46 2026
    +-----------------------------------------------------------------------------------------+
    | NVIDIA-SMI 595.71.05 Driver Version: 595.71.05 CUDA Version: 13.2 |
    +-----------------------------------------+------------------------+----------------------+
    | GPU Name Persistence-M | Bus-Id Disp.A | Volatile Uncorr. ECC |
    | Fan Temp Perf Pwr:Usage/Cap | Memory-Usage | GPU-Util Compute M. |
    | | | MIG M. |
    |=========================================+========================+======================|
    | 0 NVIDIA RTX 5880 Ada Gene... Off | 00000000:AF:00.0 Off | Off |
    | 30% 41C P8 10W / 285W | 43014MiB / 49140MiB | 0% Default |
    | | | N/A |
    +-----------------------------------------+------------------------+----------------------+

    +-----------------------------------------------------------------------------------------+

    Processes:
    GPU GI CI PID Type Process name GPU Memory
    ID ID Usage
    0 N/A N/A 5507 G /usr/lib/xorg/Xorg 4MiB
    0 N/A N/A 12641 C VLLM::EngineCore 42990MiB

    +-----------------------------------------------------------------------------------------+

    ── CUDA 版本 ──
    nvcc: NVIDIA (R) Cuda compiler driver
    Copyright (c) 2005-2023 NVIDIA Corporation
    Built on Fri_Jan__6_16:45:21_PST_2023
    Cuda compilation tools, release 12.0, V12.0.140
    Build cuda_12.0.r12.0/compiler.32267302_0
    ── 磁盘列表 ──
    NAME SIZE ROTA MODEL
    sda 7.3T 1 ST8000NM017B-2TJ103
    nvme0n1 1.8T 0 KINGSTON SNV3S2000G

    1 条回复 最后回复
    2
    • A 在线
      A 在线
      applejuice
      编写于 最后由 编辑
      #2

      论坛里果然都是大佬

      1 条回复 最后回复
      0
      • terryT 离线
        terryT 离线
        terry
        编写于 最后由 编辑
        #3

        帖子很好,我修改了下格式,发帖之前让AI整理成MarkDown格式。不要使用-- ==分割,会很难看。

        油管:https://www.youtube.com/@抡锤者

        1 条回复 最后回复
        0
        • XiaoteX 离线
          XiaoteX 离线
          Xiaote
          编写于 最后由 编辑
          #4

          @Billy-Shen 你这个配置很不错,RTX 5880 Ada Generation 有 48GB VRAM,加上 125GB 系统内存和 Ubuntu 24.04,能跑不少模型了:

          Qwen3.6-27B — 这是目前最推荐的。48GB 显存可以跑 Q4_K_M 量化(~16GB)+ 64K 上下文,甚至能跑 Q8(~27GB)。配合 llama.cpp 或 vLLM,速度很好。

          Qwen3.6-35B-A3B — MoE 架构,实际激活参数只有 3B,推理速度快。Q4_K_M 约 20GB,48GB 完全没问题。

          DeepSeek V4 的蒸馏版本 — 如果有 67B/32B 的蒸馏版,Q4 量化需要 20-35GB,也能跑。

          Llama 3.3 70B — 在 48GB 上有点勉强。Q4_K_M 约 40GB,勉强塞得下但几乎没有剩余给 KV cache,上下文会很短。建议等 Q2_K 或用 AWQ 4bit。

          推荐框架:

          • llama.cpp(llama-server)— 最简单,开箱即用,支持 MTP 加速
          • vLLM — 如果要用 OpenAI 兼容 API,支持 P-LoRA 等高级功能
          • SGLang — 对大模型推理优化更好,支持 RadixAttention

          建议路线:先上 Qwen3.6-27B-Q4_K_M(llama.cpp),实测速度,然后根据需求调整量化和上下文长度。如果需要同时服务多个模型,可以跑 vLLM + tensor-parallel。

          1 条回复 最后回复
          0
          • Billy ShenB 在线
            Billy ShenB 在线
            Billy Shen
            编写于 最后由 terry 编辑
            #5

            目前跑的是Qwen/Qwen3.6-35B-A3B-FP8, vllm version 0.21.0, 局域网组网使用了Tailscale, 远程登录没问题. 客户机里面运行Hermes agent. , vLLM + tensor-parallel 的参数自己不会搞, 准备让hermes自己优化.

            分享个启动脚本

            ames@ames-P10DRG:~$ cat vllm/start_vllm.sh

            #!/bin/bash
            # =============================================================================
            #  Qwen3.6-35B-A3B-FP8  vLLM Optimized Startup Script  v4.0
            #  基于 start_qwen3.6_claude.sh v3.1 的架构,针对 RTX 5880 Ada 全面优化
            #  优化项:
            #    1. max-num-batched-tokens 8192 -> 32768  (吞吐提升 ~4x)
            #    2. max-num-seqs 16 -> 32                (并发请求翻倍)
            #    3. max-model-len 262144 -> 40960        (MoE 线性注意力层 KV cache 实际上限 ~40K)
            #    4. gpu-memory-utilization 0.92 -> 0.90  (更安全,避免 OOM)
            #    5. 保留动态 NUMA 检测 + v0.21.0 内置 --numa-bind
            # =============================================================================
            
            set -euo pipefail
            
            # --- 配置区 ---
            VENV_PATH="$HOME/vllm_env/bin/activate"
            MODEL_NAME="Qwen/Qwen3.6-35B-A3B-FP8"
            SERVED_NAME="qwen3.6-35b"
            PORT=8000
            
            # --- 1. 激活虚拟环境 ---
            echo "[1/3] 正在激活 Python 虚拟环境..."
            source "$VENV_PATH"
            
            # --- 2. 硬件级 NUMA 优化 ---
            # 动态检测 GPU 所在 NUMA 节点,避免硬编码(双路 CPU 架构下降低跨桥延迟)
            echo "[2/3] 正在检测显卡 NUMA 拓扑节点..."
            NUMA_NODE=$(cat /sys/bus/pci/devices/0000:af:00.0/numa_node 2>/dev/null || echo "0")
            if [[ "$NUMA_NODE" == "-1" ]]; then NUMA_NODE="0"; fi
            echo "      已锁定至 NUMA Node ${NUMA_NODE}"
            
            # --- 3. 启动 vLLM ---
            echo "[3/3] 正在拉起 vLLM 推理引擎..."
            
            VLLM_ARGS=(
                # ── 模型 ─────────────────────────────────────────────────────────────────
                --model                   "$MODEL_NAME"
                --served-model-name       "$SERVED_NAME"
                --port                    "$PORT"
            
                # ── GPU 资源 ──────────────────────────────────────────────────────────────
                --tensor-parallel-size    1
                --gpu-memory-utilization  0.90
            
                # ── NUMA 绑定(v0.21.0 内置,无需 numactl)───────────────────────────────
                --numa-bind
                --numa-bind-nodes         "$NUMA_NODE"
            
                # ── 上下文窗口 ────────────────────────────────────────────────────────────
                # MoE 模型 40 层中 30 层为线性注意力,每位置 KV cache 约 250 KB
                # 48 GB GPU 扣除 ~35 GB 权重后,KV 预算仅 ~9 GB ≈ 39K positions
                --max-model-len           40960
                --max-num-batched-tokens  32768
                --max-num-seqs            32
            
                # ── 推理解析 ──────────────────────────────────────────────────────────────
                --reasoning-parser        qwen3
            
                # ── 工具调用 ──────────────────────────────────────────────────────────────
                --enable-auto-tool-choice
                --tool-call-parser        qwen3_coder
            
                # ── 投机解码(MTP)───────────────────────────────────────────────────────
                # num_speculative_tokens=1 已验证接受率最佳,>1 会降低整体吞吐
                --speculative-config      '{"method":"mtp","num_speculative_tokens":1}'
            
                # ── FP8 KV Cache(节省约 30% VRAM)───────────────────────────────────────
                --kv-cache-dtype          fp8
            
                # ── 性能优化 ──────────────────────────────────────────────────────────────
                --performance-mode        throughput
                --enable-chunked-prefill
                --enable-prefix-caching
            
                # ── 日志精简 ──────────────────────────────────────────────────────────────
                --disable-uvicorn-access-log
                --disable-log-stats
            
                --trust-remote-code
            )
            
            exec python3 -m vllm.entrypoints.openai.api_server "${VLLM_ARGS[@]}"
            
            1 条回复 最后回复
            1

            你好!看起来您对这段对话很感兴趣,但您还没有一个账号。

            厌倦了每次访问都刷到同样的帖子?您注册账号后,您每次返回时都能精准定位到您上次浏览的位置,并可选择接收新回复通知(通过邮件或推送通知)。您还能收藏书签、为帖子顶,向社区成员表达您的欣赏。

            有了你的建议,这篇帖子会更精彩哦 💗

            注册 登录
            回复
            • 在新帖中回复
            登录后回复
            • 从旧到新
            • 从新到旧
            • 最多赞同


            • 登录

            • 没有帐号? 注册

            • 登录或注册以进行搜索。
            • 第一个帖子
              最后一个帖子
            0
            • 版块
            • 最新
            • 标签
            • 热门
            • 用户
            • 群组