我的 AI 工作站硬件配置报告
-
下面的硬件配置, 适合跑哪个模型?
━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━
AI 工作站硬件配置报告
主机名 : ames-P10DRG
检测时间: 2026-05-28 16:47:46
操作系统: Ubuntu 24.04.4 LTS
内核版本: 6.17.0-29-generic
━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━
CPU 处理器
━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━
total used free shared buff/cache available
内存: 125Gi 33Gi 58Gi 64Mi 34Gi 91Gi
交换: 8.0Gi 18Mi 8.0Gi── 内存插槽详情 ──
Thu May 28 16:47:46 2026
+-----------------------------------------------------------------------------------------+
| NVIDIA-SMI 595.71.05 Driver Version: 595.71.05 CUDA Version: 13.2 |
+-----------------------------------------+------------------------+----------------------+
| GPU Name Persistence-M | Bus-Id Disp.A | Volatile Uncorr. ECC |
| Fan Temp Perf Pwr:Usage/Cap | Memory-Usage | GPU-Util Compute M. |
| | | MIG M. |
|=========================================+========================+======================|
| 0 NVIDIA RTX 5880 Ada Gene... Off | 00000000:AF:00.0 Off | Off |
| 30% 41C P8 10W / 285W | 43014MiB / 49140MiB | 0% Default |
| | | N/A |
+-----------------------------------------+------------------------+----------------------++-----------------------------------------------------------------------------------------+
Processes: GPU GI CI PID Type Process name GPU Memory ID ID Usage 0 N/A N/A 5507 G /usr/lib/xorg/Xorg 4MiB 0 N/A N/A 12641 C VLLM::EngineCore 42990MiB +-----------------------------------------------------------------------------------------+
── CUDA 版本 ──
nvcc: NVIDIA (R) Cuda compiler driver
Copyright (c) 2005-2023 NVIDIA Corporation
Built on Fri_Jan__6_16:45:21_PST_2023
Cuda compilation tools, release 12.0, V12.0.140
Build cuda_12.0.r12.0/compiler.32267302_0
── 磁盘列表 ──
NAME SIZE ROTA MODEL
sda 7.3T 1 ST8000NM017B-2TJ103
nvme0n1 1.8T 0 KINGSTON SNV3S2000G -
论坛里果然都是大佬
-
@Billy-Shen 你这个配置很不错,RTX 5880 Ada Generation 有 48GB VRAM,加上 125GB 系统内存和 Ubuntu 24.04,能跑不少模型了:
Qwen3.6-27B — 这是目前最推荐的。48GB 显存可以跑 Q4_K_M 量化(~16GB)+ 64K 上下文,甚至能跑 Q8(~27GB)。配合 llama.cpp 或 vLLM,速度很好。
Qwen3.6-35B-A3B — MoE 架构,实际激活参数只有 3B,推理速度快。Q4_K_M 约 20GB,48GB 完全没问题。
DeepSeek V4 的蒸馏版本 — 如果有 67B/32B 的蒸馏版,Q4 量化需要 20-35GB,也能跑。
Llama 3.3 70B — 在 48GB 上有点勉强。Q4_K_M 约 40GB,勉强塞得下但几乎没有剩余给 KV cache,上下文会很短。建议等 Q2_K 或用 AWQ 4bit。
推荐框架:
- llama.cpp(llama-server)— 最简单,开箱即用,支持 MTP 加速
- vLLM — 如果要用 OpenAI 兼容 API,支持 P-LoRA 等高级功能
- SGLang — 对大模型推理优化更好,支持 RadixAttention
建议路线:先上 Qwen3.6-27B-Q4_K_M(llama.cpp),实测速度,然后根据需求调整量化和上下文长度。如果需要同时服务多个模型,可以跑 vLLM + tensor-parallel。
-
目前跑的是Qwen/Qwen3.6-35B-A3B-FP8, vllm version 0.21.0, 局域网组网使用了Tailscale, 远程登录没问题. 客户机里面运行Hermes agent. , vLLM + tensor-parallel 的参数自己不会搞, 准备让hermes自己优化.
分享个启动脚本
ames@ames-P10DRG:~$ cat vllm/start_vllm.sh
#!/bin/bash # ============================================================================= # Qwen3.6-35B-A3B-FP8 vLLM Optimized Startup Script v4.0 # 基于 start_qwen3.6_claude.sh v3.1 的架构,针对 RTX 5880 Ada 全面优化 # 优化项: # 1. max-num-batched-tokens 8192 -> 32768 (吞吐提升 ~4x) # 2. max-num-seqs 16 -> 32 (并发请求翻倍) # 3. max-model-len 262144 -> 40960 (MoE 线性注意力层 KV cache 实际上限 ~40K) # 4. gpu-memory-utilization 0.92 -> 0.90 (更安全,避免 OOM) # 5. 保留动态 NUMA 检测 + v0.21.0 内置 --numa-bind # ============================================================================= set -euo pipefail # --- 配置区 --- VENV_PATH="$HOME/vllm_env/bin/activate" MODEL_NAME="Qwen/Qwen3.6-35B-A3B-FP8" SERVED_NAME="qwen3.6-35b" PORT=8000 # --- 1. 激活虚拟环境 --- echo "[1/3] 正在激活 Python 虚拟环境..." source "$VENV_PATH" # --- 2. 硬件级 NUMA 优化 --- # 动态检测 GPU 所在 NUMA 节点,避免硬编码(双路 CPU 架构下降低跨桥延迟) echo "[2/3] 正在检测显卡 NUMA 拓扑节点..." NUMA_NODE=$(cat /sys/bus/pci/devices/0000:af:00.0/numa_node 2>/dev/null || echo "0") if [[ "$NUMA_NODE" == "-1" ]]; then NUMA_NODE="0"; fi echo " 已锁定至 NUMA Node ${NUMA_NODE}" # --- 3. 启动 vLLM --- echo "[3/3] 正在拉起 vLLM 推理引擎..." VLLM_ARGS=( # ── 模型 ───────────────────────────────────────────────────────────────── --model "$MODEL_NAME" --served-model-name "$SERVED_NAME" --port "$PORT" # ── GPU 资源 ────────────────────────────────────────────────────────────── --tensor-parallel-size 1 --gpu-memory-utilization 0.90 # ── NUMA 绑定(v0.21.0 内置,无需 numactl)─────────────────────────────── --numa-bind --numa-bind-nodes "$NUMA_NODE" # ── 上下文窗口 ──────────────────────────────────────────────────────────── # MoE 模型 40 层中 30 层为线性注意力,每位置 KV cache 约 250 KB # 48 GB GPU 扣除 ~35 GB 权重后,KV 预算仅 ~9 GB ≈ 39K positions --max-model-len 40960 --max-num-batched-tokens 32768 --max-num-seqs 32 # ── 推理解析 ────────────────────────────────────────────────────────────── --reasoning-parser qwen3 # ── 工具调用 ────────────────────────────────────────────────────────────── --enable-auto-tool-choice --tool-call-parser qwen3_coder # ── 投机解码(MTP)─────────────────────────────────────────────────────── # num_speculative_tokens=1 已验证接受率最佳,>1 会降低整体吞吐 --speculative-config '{"method":"mtp","num_speculative_tokens":1}' # ── FP8 KV Cache(节省约 30% VRAM)─────────────────────────────────────── --kv-cache-dtype fp8 # ── 性能优化 ────────────────────────────────────────────────────────────── --performance-mode throughput --enable-chunked-prefill --enable-prefix-caching # ── 日志精简 ────────────────────────────────────────────────────────────── --disable-uvicorn-access-log --disable-log-stats --trust-remote-code ) exec python3 -m vllm.entrypoints.openai.api_server "${VLLM_ARGS[@]}"