我的 AI 工作站硬件配置报告

Billy Shen

下面的硬件配置, 适合跑哪个模型?

━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━
AI 工作站硬件配置报告
主机名 : ames-P10DRG
检测时间: 2026-05-28 16:47:46
操作系统: Ubuntu 24.04.4 LTS
内核版本: 6.17.0-29-generic
━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━

━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━
CPU 处理器
━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━
total used free shared buff/cache available
内存： 125Gi 33Gi 58Gi 64Mi 34Gi 91Gi
交换： 8.0Gi 18Mi 8.0Gi

+-----------------------------------------------------------------------------------------+

Processes:
GPU GI CI PID Type Process name GPU Memory
ID ID Usage
0 N/A N/A 5507 G /usr/lib/xorg/Xorg 4MiB
0 N/A N/A 12641 C VLLM::EngineCore 42990MiB

+-----------------------------------------------------------------------------------------+

── CUDA 版本 ──
nvcc: NVIDIA (R) Cuda compiler driver
Copyright (c) 2005-2023 NVIDIA Corporation
Built on Fri_Jan__6_16:45:21_PST_2023
Cuda compilation tools, release 12.0, V12.0.140
Build cuda_12.0.r12.0/compiler.32267302_0
── 磁盘列表 ──
NAME SIZE ROTA MODEL
sda 7.3T 1 ST8000NM017B-2TJ103
nvme0n1 1.8T 0 KINGSTON SNV3S2000G

applejuice

论坛里果然都是大佬

terry

帖子很好，我修改了下格式，发帖之前让AI整理成MarkDown格式。不要使用-- ==分割，会很难看。

Xiaote

@Billy-Shen 你这个配置很不错，RTX 5880 Ada Generation 有 48GB VRAM，加上 125GB 系统内存和 Ubuntu 24.04，能跑不少模型了：

Qwen3.6-27B — 这是目前最推荐的。48GB 显存可以跑 Q4_K_M 量化（~16GB）+ 64K 上下文，甚至能跑 Q8（~27GB）。配合 llama.cpp 或 vLLM，速度很好。

Qwen3.6-35B-A3B — MoE 架构，实际激活参数只有 3B，推理速度快。Q4_K_M 约 20GB，48GB 完全没问题。

DeepSeek V4 的蒸馏版本 — 如果有 67B/32B 的蒸馏版，Q4 量化需要 20-35GB，也能跑。

Llama 3.3 70B — 在 48GB 上有点勉强。Q4_K_M 约 40GB，勉强塞得下但几乎没有剩余给 KV cache，上下文会很短。建议等 Q2_K 或用 AWQ 4bit。

推荐框架：

llama.cpp（llama-server）— 最简单，开箱即用，支持 MTP 加速
vLLM — 如果要用 OpenAI 兼容 API，支持 P-LoRA 等高级功能
SGLang — 对大模型推理优化更好，支持 RadixAttention

建议路线：先上 Qwen3.6-27B-Q4_K_M（llama.cpp），实测速度，然后根据需求调整量化和上下文长度。如果需要同时服务多个模型，可以跑 vLLM + tensor-parallel。

Billy Shen

目前跑的是Qwen/Qwen3.6-35B-A3B-FP8, vllm version 0.21.0, 局域网组网使用了Tailscale, 远程登录没问题. 客户机里面运行Hermes agent. , vLLM + tensor-parallel 的参数自己不会搞, 准备让hermes自己优化.

分享个启动脚本

ames@ames-P10DRG:~$ cat vllm/start_vllm.sh

#!/bin/bash
# =============================================================================
#  Qwen3.6-35B-A3B-FP8  vLLM Optimized Startup Script  v4.0
#  基于 start_qwen3.6_claude.sh v3.1 的架构，针对 RTX 5880 Ada 全面优化
#  优化项:
#    1. max-num-batched-tokens 8192 -> 32768  (吞吐提升 ~4x)
#    2. max-num-seqs 16 -> 32                (并发请求翻倍)
#    3. max-model-len 262144 -> 40960        (MoE 线性注意力层 KV cache 实际上限 ~40K)
#    4. gpu-memory-utilization 0.92 -> 0.90  (更安全，避免 OOM)
#    5. 保留动态 NUMA 检测 + v0.21.0 内置 --numa-bind
# =============================================================================

set -euo pipefail

# --- 配置区 ---
VENV_PATH="$HOME/vllm_env/bin/activate"
MODEL_NAME="Qwen/Qwen3.6-35B-A3B-FP8"
SERVED_NAME="qwen3.6-35b"
PORT=8000

# --- 1. 激活虚拟环境 ---
echo "[1/3] 正在激活 Python 虚拟环境..."
source "$VENV_PATH"

# --- 2. 硬件级 NUMA 优化 ---
# 动态检测 GPU 所在 NUMA 节点，避免硬编码（双路 CPU 架构下降低跨桥延迟）
echo "[2/3] 正在检测显卡 NUMA 拓扑节点..."
NUMA_NODE=$(cat /sys/bus/pci/devices/0000:af:00.0/numa_node 2>/dev/null || echo "0")
if [[ "$NUMA_NODE" == "-1" ]]; then NUMA_NODE="0"; fi
echo "      已锁定至 NUMA Node ${NUMA_NODE}"

# --- 3. 启动 vLLM ---
echo "[3/3] 正在拉起 vLLM 推理引擎..."

VLLM_ARGS=(
    # ── 模型 ─────────────────────────────────────────────────────────────────
    --model                   "$MODEL_NAME"
    --served-model-name       "$SERVED_NAME"
    --port                    "$PORT"

    # ── GPU 资源 ──────────────────────────────────────────────────────────────
    --tensor-parallel-size    1
    --gpu-memory-utilization  0.90

    # ── NUMA 绑定（v0.21.0 内置，无需 numactl）───────────────────────────────
    --numa-bind
    --numa-bind-nodes         "$NUMA_NODE"

    # ── 上下文窗口 ────────────────────────────────────────────────────────────
    # MoE 模型 40 层中 30 层为线性注意力，每位置 KV cache 约 250 KB
    # 48 GB GPU 扣除 ~35 GB 权重后，KV 预算仅 ~9 GB ≈ 39K positions
    --max-model-len           40960
    --max-num-batched-tokens  32768
    --max-num-seqs            32

    # ── 推理解析 ──────────────────────────────────────────────────────────────
    --reasoning-parser        qwen3

    # ── 工具调用 ──────────────────────────────────────────────────────────────
    --enable-auto-tool-choice
    --tool-call-parser        qwen3_coder

    # ── 投机解码（MTP）───────────────────────────────────────────────────────
    # num_speculative_tokens=1 已验证接受率最佳，>1 会降低整体吞吐
    --speculative-config      '{"method":"mtp","num_speculative_tokens":1}'

    # ── FP8 KV Cache（节省约 30% VRAM）───────────────────────────────────────
    --kv-cache-dtype          fp8

    # ── 性能优化 ──────────────────────────────────────────────────────────────
    --performance-mode        throughput
    --enable-chunked-prefill
    --enable-prefix-caching

    # ── 日志精简 ──────────────────────────────────────────────────────────────
    --disable-uvicorn-access-log
    --disable-log-stats

    --trust-remote-code
)

exec python3 -m vllm.entrypoints.openai.api_server "${VLLM_ARGS[@]}"

抡锤者

我的 AI 工作站硬件配置报告