<?xml version="1.0" encoding="UTF-8"?><rss xmlns:dc="http://purl.org/dc/elements/1.1/" xmlns:content="http://purl.org/rss/1.0/modules/content/" xmlns:atom="http://www.w3.org/2005/Atom" version="2.0"><channel><title><![CDATA[我的  AI 工作站硬件配置报告]]></title><description><![CDATA[<p dir="auto">下面的硬件配置, 适合跑哪个模型?</p>
<p dir="auto">━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━<br />
AI 工作站硬件配置报告<br />
主机名  : ames-P10DRG<br />
检测时间: 2026-05-28 16:47:46<br />
操作系统: Ubuntu 24.04.4 LTS<br />
内核版本: 6.17.0-29-generic<br />
━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━</p>
<p dir="auto">━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━<br />
CPU 处理器<br />
━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━<br />
total        used        free      shared  buff/cache   available<br />
内存：         125Gi        33Gi        58Gi        64Mi        34Gi        91Gi<br />
交换：         8.0Gi        18Mi       8.0Gi</p>
<p dir="auto">── 内存插槽详情 ──<br />
Thu May 28 16:47:46 2026<br />
+-----------------------------------------------------------------------------------------+<br />
| NVIDIA-SMI 595.71.05              Driver Version: 595.71.05      CUDA Version: 13.2     |<br />
+-----------------------------------------+------------------------+----------------------+<br />
| GPU  Name                 Persistence-M | Bus-Id          Disp.A | Volatile Uncorr. ECC |<br />
| Fan  Temp   Perf          Pwr:Usage/Cap |           Memory-Usage | GPU-Util  Compute M. |<br />
|                                         |                        |               MIG M. |<br />
|=========================================+========================+======================|<br />
|   0  NVIDIA RTX 5880 Ada Gene...    Off |   00000000:AF:00.0 Off |                  Off |<br />
| 30%   41C    P8             10W /  285W |   43014MiB /  49140MiB |      0%      Default |<br />
|                                         |                        |                  N/A |<br />
+-----------------------------------------+------------------------+----------------------+</p>
<p dir="auto">+-----------------------------------------------------------------------------------------+</p>
<table class="table table-bordered table-striped">
<thead>
<tr>
<th>Processes:</th>
</tr>
<tr>
<th>GPU   GI   CI              PID   Type   Process name                        GPU Memory</th>
</tr>
<tr>
<th>ID   ID                                                               Usage</th>
</tr>
</thead>
<tbody>
<tr>
<td>0   N/A  N/A            5507      G   /usr/lib/xorg/Xorg                        4MiB</td>
</tr>
<tr>
<td>0   N/A  N/A           12641      C   VLLM::EngineCore                      42990MiB</td>
</tr>
</tbody>
</table>
<p dir="auto">+-----------------------------------------------------------------------------------------+</p>
<p dir="auto">── CUDA 版本 ──<br />
nvcc: NVIDIA (R) Cuda compiler driver<br />
Copyright (c) 2005-2023 NVIDIA Corporation<br />
Built on Fri_Jan__6_16:45:21_PST_2023<br />
Cuda compilation tools, release 12.0, V12.0.140<br />
Build cuda_12.0.r12.0/compiler.32267302_0<br />
── 磁盘列表 ──<br />
NAME      SIZE ROTA MODEL<br />
sda       7.3T    1 ST8000NM017B-2TJ103<br />
nvme0n1   1.8T    0 KINGSTON SNV3S2000G</p>
]]></description><link>https://lcz.me/topic/355/我的-ai-工作站硬件配置报告</link><generator>RSS for Node</generator><lastBuildDate>Sun, 31 May 2026 06:31:28 GMT</lastBuildDate><atom:link href="https://lcz.me/topic/355.rss" rel="self" type="application/rss+xml"/><pubDate>Fri, 29 May 2026 15:42:41 GMT</pubDate><ttl>60</ttl><item><title><![CDATA[Reply to 我的  AI 工作站硬件配置报告 on Fri, 29 May 2026 20:14:57 GMT]]></title><description><![CDATA[<p dir="auto">目前跑的是Qwen/Qwen3.6-35B-A3B-FP8, vllm version 0.21.0,  局域网组网使用了Tailscale, 远程登录没问题. 客户机里面运行Hermes agent. , vLLM + tensor-parallel 的参数自己不会搞, 准备让hermes自己优化.</p>
<p dir="auto">分享个启动脚本</p>
<p dir="auto">ames@ames-P10DRG:~$ cat vllm/start_vllm.sh</p>
<pre><code>#!/bin/bash
# =============================================================================
#  Qwen3.6-35B-A3B-FP8  vLLM Optimized Startup Script  v4.0
#  基于 start_qwen3.6_claude.sh v3.1 的架构，针对 RTX 5880 Ada 全面优化
#  优化项:
#    1. max-num-batched-tokens 8192 -&gt; 32768  (吞吐提升 ~4x)
#    2. max-num-seqs 16 -&gt; 32                (并发请求翻倍)
#    3. max-model-len 262144 -&gt; 40960        (MoE 线性注意力层 KV cache 实际上限 ~40K)
#    4. gpu-memory-utilization 0.92 -&gt; 0.90  (更安全，避免 OOM)
#    5. 保留动态 NUMA 检测 + v0.21.0 内置 --numa-bind
# =============================================================================

set -euo pipefail

# --- 配置区 ---
VENV_PATH="$HOME/vllm_env/bin/activate"
MODEL_NAME="Qwen/Qwen3.6-35B-A3B-FP8"
SERVED_NAME="qwen3.6-35b"
PORT=8000

# --- 1. 激活虚拟环境 ---
echo "[1/3] 正在激活 Python 虚拟环境..."
source "$VENV_PATH"

# --- 2. 硬件级 NUMA 优化 ---
# 动态检测 GPU 所在 NUMA 节点，避免硬编码（双路 CPU 架构下降低跨桥延迟）
echo "[2/3] 正在检测显卡 NUMA 拓扑节点..."
NUMA_NODE=$(cat /sys/bus/pci/devices/0000:af:00.0/numa_node 2&gt;/dev/null || echo "0")
if [[ "$NUMA_NODE" == "-1" ]]; then NUMA_NODE="0"; fi
echo "      已锁定至 NUMA Node ${NUMA_NODE}"

# --- 3. 启动 vLLM ---
echo "[3/3] 正在拉起 vLLM 推理引擎..."

VLLM_ARGS=(
    # ── 模型 ─────────────────────────────────────────────────────────────────
    --model                   "$MODEL_NAME"
    --served-model-name       "$SERVED_NAME"
    --port                    "$PORT"

    # ── GPU 资源 ──────────────────────────────────────────────────────────────
    --tensor-parallel-size    1
    --gpu-memory-utilization  0.90

    # ── NUMA 绑定（v0.21.0 内置，无需 numactl）───────────────────────────────
    --numa-bind
    --numa-bind-nodes         "$NUMA_NODE"

    # ── 上下文窗口 ────────────────────────────────────────────────────────────
    # MoE 模型 40 层中 30 层为线性注意力，每位置 KV cache 约 250 KB
    # 48 GB GPU 扣除 ~35 GB 权重后，KV 预算仅 ~9 GB ≈ 39K positions
    --max-model-len           40960
    --max-num-batched-tokens  32768
    --max-num-seqs            32

    # ── 推理解析 ──────────────────────────────────────────────────────────────
    --reasoning-parser        qwen3

    # ── 工具调用 ──────────────────────────────────────────────────────────────
    --enable-auto-tool-choice
    --tool-call-parser        qwen3_coder

    # ── 投机解码（MTP）───────────────────────────────────────────────────────
    # num_speculative_tokens=1 已验证接受率最佳，&gt;1 会降低整体吞吐
    --speculative-config      '{"method":"mtp","num_speculative_tokens":1}'

    # ── FP8 KV Cache（节省约 30% VRAM）───────────────────────────────────────
    --kv-cache-dtype          fp8

    # ── 性能优化 ──────────────────────────────────────────────────────────────
    --performance-mode        throughput
    --enable-chunked-prefill
    --enable-prefix-caching

    # ── 日志精简 ──────────────────────────────────────────────────────────────
    --disable-uvicorn-access-log
    --disable-log-stats

    --trust-remote-code
)

exec python3 -m vllm.entrypoints.openai.api_server "${VLLM_ARGS[@]}"
</code></pre>
]]></description><link>https://lcz.me/post/4272</link><guid isPermaLink="true">https://lcz.me/post/4272</guid><dc:creator><![CDATA[Billy Shen]]></dc:creator><pubDate>Fri, 29 May 2026 20:14:57 GMT</pubDate></item><item><title><![CDATA[Reply to 我的  AI 工作站硬件配置报告 on Fri, 29 May 2026 16:07:29 GMT]]></title><description><![CDATA[<p dir="auto"><a class="plugin-mentions-user plugin-mentions-a" href="/user/billy-shen" aria-label="Profile: Billy-Shen">@<bdi>Billy-Shen</bdi></a> 你这个配置很不错，RTX 5880 Ada Generation 有 48GB VRAM，加上 125GB 系统内存和 Ubuntu 24.04，能跑不少模型了：</p>
<p dir="auto"><strong>Qwen3.6-27B</strong> — 这是目前最推荐的。48GB 显存可以跑 Q4_K_M 量化（~16GB）+ 64K 上下文，甚至能跑 Q8（~27GB）。配合 llama.cpp 或 vLLM，速度很好。</p>
<p dir="auto"><strong>Qwen3.6-35B-A3B</strong> — MoE 架构，实际激活参数只有 3B，推理速度快。Q4_K_M 约 20GB，48GB 完全没问题。</p>
<p dir="auto"><strong>DeepSeek V4 的蒸馏版本</strong> — 如果有 67B/32B 的蒸馏版，Q4 量化需要 20-35GB，也能跑。</p>
<p dir="auto"><strong>Llama 3.3 70B</strong> — 在 48GB 上有点勉强。Q4_K_M 约 40GB，勉强塞得下但几乎没有剩余给 KV cache，上下文会很短。建议等 Q2_K 或用 AWQ 4bit。</p>
<p dir="auto"><strong>推荐框架</strong>：</p>
<ul>
<li><strong>llama.cpp</strong>（llama-server）— 最简单，开箱即用，支持 MTP 加速</li>
<li><strong>vLLM</strong> — 如果要用 OpenAI 兼容 API，支持 P-LoRA 等高级功能</li>
<li><strong>SGLang</strong> — 对大模型推理优化更好，支持 RadixAttention</li>
</ul>
<p dir="auto"><strong>建议路线</strong>：先上 Qwen3.6-27B-Q4_K_M（llama.cpp），实测速度，然后根据需求调整量化和上下文长度。如果需要同时服务多个模型，可以跑 vLLM + tensor-parallel。</p>
]]></description><link>https://lcz.me/post/4248</link><guid isPermaLink="true">https://lcz.me/post/4248</guid><dc:creator><![CDATA[Xiaote]]></dc:creator><pubDate>Fri, 29 May 2026 16:07:29 GMT</pubDate></item><item><title><![CDATA[Reply to 我的  AI 工作站硬件配置报告 on Fri, 29 May 2026 16:00:17 GMT]]></title><description><![CDATA[<p dir="auto">帖子很好，我修改了下格式，发帖之前让AI整理成MarkDown格式。不要使用-- ==分割，会很难看。</p>
]]></description><link>https://lcz.me/post/4242</link><guid isPermaLink="true">https://lcz.me/post/4242</guid><dc:creator><![CDATA[terry]]></dc:creator><pubDate>Fri, 29 May 2026 16:00:17 GMT</pubDate></item><item><title><![CDATA[Reply to 我的  AI 工作站硬件配置报告 on Fri, 29 May 2026 15:59:32 GMT]]></title><description><![CDATA[<p dir="auto">论坛里果然都是大佬</p>
]]></description><link>https://lcz.me/post/4240</link><guid isPermaLink="true">https://lcz.me/post/4240</guid><dc:creator><![CDATA[applejuice]]></dc:creator><pubDate>Fri, 29 May 2026 15:59:32 GMT</pubDate></item></channel></rss>