<?xml version="1.0" encoding="UTF-8"?><rss xmlns:dc="http://purl.org/dc/elements/1.1/" xmlns:content="http://purl.org/rss/1.0/modules/content/" xmlns:atom="http://www.w3.org/2005/Atom" version="2.0"><channel><title><![CDATA[7900XTX vLLM Qwen3.6-27B W4A16 kernel  41.5 tk&#x2F;s 併發273 tk&#x2F;s]]></title><description><![CDATA[<h1>【AMD 7900 XTX 實測】vLLM RDNA3 原生 W4A16 Kernel 初體驗 — 41.5 tk/s 併發273 tk/s 性能報告</h1>
<hr />
<p dir="auto">在這個頻道學了很多，也是來回饋的時候<br />
最近也買了一張 7900 XTX，發熱散熱感覺比自己原有的 3080 Ti 好，很喜歡<br />
vLLM 的中文文章比較少，拋磚引玉一下</p>
<hr />
<h2>一、vLLM RDNA3 新 Kernel</h2>
<p dir="auto"><strong>[ROCm] Native W4A16 kernel for AMD RDNA3 (gfx1100) — fp16 + bf16</strong></p>
<p dir="auto"><a href="https://github.com/vllm-project/vllm/pull/41394" rel="nofollow ugc">https://github.com/vllm-project/vllm/pull/41394</a> （5/29 merged）</p>
<p dir="auto">買來 7900 XTX 以後，llama.cpp 30 tok/s，MTP 48 tok/s，本來已經心滿意足了。<br />
突然看到 vLLM 有 7900 的新 kernel merge 了，就馬上來試了！</p>
<hr />
<h2>二、系統配置與速度結果</h2>
<p dir="auto"><strong>系統配置</strong></p>
<ul>
<li>CPU: AMD Ryzen 7 3700X (8C/16T)</li>
<li>GPU: AMD Radeon RX 7900 XTX (24 GiB, gfx1100) 單卡</li>
<li>RAM: 48 GiB</li>
<li>OS: Ubuntu 26.04 LTS</li>
<li>Kernel: 7.0.0-15-generic</li>
<li>ROCm: 7.2.3</li>
<li>GCC: 15.2.0</li>
<li>Python: 3.12.13 (uv)</li>
<li>PyTorch: ROCm 2.10.0 系</li>
<li>Triton: 3.6.0</li>
<li>vLLM: 0.22.1rc1.dev10+g187457a95.rocm723</li>
<li>模型: Qwen3.6-27B-GPTQ-Pro-4bit (18.7 GB)</li>
</ul>
<p dir="auto">模型來源: <a href="https://huggingface.co/groxaxo/Qwen3.6-27B-GPTQ-Pro-4bit" rel="nofollow ugc">https://huggingface.co/groxaxo/Qwen3.6-27B-GPTQ-Pro-4bit</a></p>
<p dir="auto"><strong>第 5 次測試結果 — 穩定性驗證 (92512 context)</strong></p>
<p dir="auto">使用 DeepSeek V4 Flash 搭配 Hermes 寫出的測試 script</p>
<ul>
<li>單線程: Run 4 = 41.5 tk/s → Run 5 = 41.4 ~ 41.5 tk/s (幾乎一致)</li>
<li>c=2: Run 4 = 69.7 tk/s → Run 5 = 71.8 tk/s (+3%)</li>
<li>c=4: Run 4 = 124.4 tk/s → Run 5 = 122.8 tk/s (-1%)</li>
<li>c=8: Run 4 = 198.6 tk/s → Run 5 = 191.8 tk/s (-3%)</li>
<li>c=12: Run 4 = 216.4 tk/s → Run 5 = 211.5 tk/s (-2%)</li>
<li>c=16: Run 4 = 273.0 tk/s → Run 5 = 267.9 tk/s (-2% 微幅波動)</li>
</ul>
<p dir="auto">16 線程併發能達到 273 tk/s！<br />
PR 裡面有測試 32 線程可以到 447 tk/s（雙 7900 XTX 配置）</p>
<hr />
<h2>三、安裝方式</h2>
<p dir="auto"><strong>a. ROCm 7.2.3</strong></p>
<p dir="auto">確保 <code>/opt/rocm-7.2.3</code> 目錄存在</p>
<p dir="auto"><strong>b. vLLM + Torch 2.12.0+rocm7.2</strong></p>
<p dir="auto">建議使用 venv 單獨給 vLLM 一個環境：</p>
<pre><code>uv venv --python 3.12 --seed
source .venv/bin/activate
</code></pre>
<p dir="auto">使用官方 nightly build binary 安裝會比自己編源碼快很多</p>
<pre><code>uv pip install --pre vllm \
  --extra-index-url https://wheels.vllm.ai/rocm/nightly/rocm723/ \
  --index-strategy unsafe-best-match \
  --only-binary :all:
</code></pre>
<p dir="auto">會裝一大堆套件（含 <code>torch==2.12.0+rocm7.2</code>）</p>
<p dir="auto">注意：這裡的 torch 版本必須帶有 <code>rocm7.2</code> 標記</p>
<hr />
<h2>四、運行 Script</h2>
<p dir="auto">92512 context，Hermes 能跑：</p>
<pre><code>#!/bin/bash
cd /path/to/your-workspace
source .venv/bin/activate

# 唯一性檢查：防止重複啟動導致 VRAM 塞爆
if pgrep -f "vllm.entrypoints.openai.api_server" &gt; /dev/null; then
    echo "❌ 錯誤：偵測到 vLLM 伺服器已經在運行中！"
    echo "💡 提示：請先關閉舊行程後再重試。"
    exit 1
fi
echo "✅ 系統檢查通過，準備啟動 vLLM..."

# ROCm env
export ROCM_HOME=/opt/rocm-7.2.3
export ROCM_PATH=$ROCM_HOME
export PATH=$ROCM_HOME/lib/llvm/bin:$ROCM_HOME/bin:$PATH
export LD_LIBRARY_PATH=/path/to/your-local-lib:/opt/rocm-7.2.3/lib:/opt/rocm-7.2.3/lib64:$LD_LIBRARY_PATH
export LD_PRELOAD=/path/to/your-local-lib/libmpi.so.40
export HSA_OVERRIDE_GFX_VERSION=11.0.0
export HIP_VISIBLE_DEVICES=0

exec python -m vllm.entrypoints.openai.api_server \
  --model /path/to/your-model/Qwen3.6-27B-GPTQ-Pro-4bit \
  --port 8080 --dtype float16 \
  --max-model-len 92512 \
  --quantization gptq_marlin \
  --kv-cache-dtype fp8 \
  --gpu-memory-utilization 0.98 \
  --enable-prefix-caching \
  --attention-backend TRITON_ATTN \
  --max-num-seqs 16 \
  --trust-remote-code \
  --language-model-only \
  --enable-auto-tool-choice \
  --tool-call-parser qwen3_coder \
  --reasoning-parser qwen3 \
  --default-chat-template-kwargs '{"enable_thinking": false}'
</code></pre>
<p dir="auto"><strong>核心生效確認</strong></p>
<p dir="auto">這是最重要的 log，PR 的 kernel 生效了：</p>
<pre><code>INFO 05-30 17:28:01 [auto_gptq.py:353] Using RDNA3W4A16LinearKernel for AutoGPTQLinearMethod
</code></pre>
<p dir="auto">看到這行就代表 RDNA3 原生 kernel 已經在運作了！</p>
<hr />
<h2>五、Ubuntu 26.04 的坑</h2>
<p dir="auto"><strong>a. 缺少 <code>libmpi.so.40</code></strong></p>
<p dir="auto">OpenMPI 的動態函式庫找不到，需要去 Ubuntu 24.04 的套件來源抓對應的 dep。</p>
<p dir="auto"><strong>b. GCC 16 太新導致 Triton 編譯不過</strong></p>
<p dir="auto">Ubuntu 26.04 預設 GCC 16，啟動時 Triton 編譯可能失敗。<br />
需要設定環境變數強制使用 GCC 15 解決：</p>
<pre><code>export CC=/usr/bin/gcc-15
export CXX=/usr/bin/g++-15
</code></pre>
<hr />
<h2>六、心得</h2>
<p dir="auto"><strong>a.</strong> vLLM 是進階版，建議小白先去試 llama.cpp 入門</p>
<p dir="auto"><strong>b.</strong> 安裝過程各種除錯，都建議 Hermes + Gemini 全程輔助。Hermes 的用途就是幫你操作系統</p>
<p dir="auto"><strong>c.</strong> 感覺 vLLM 整體比 llama.cpp 穩定，速度上不一定就比較快，啟動也比較慢</p>
<p dir="auto"><strong>d.</strong> vLLM 可以高併發，但是 KV Cache 還是有限的。16 個單句問題能回覆，但 2 個 Hermes 一起進來就會崩</p>
<p dir="auto"><strong>e.</strong> 初次啟動 vLLM 後可能會卡在 Triton 編譯很久，這裡也可以叫 Hermes 去監控 cache 有沒有持續生成</p>
]]></description><link>https://lcz.me/topic/369/7900xtx-vllm-qwen3.6-27b-w4a16-kernel-41.5-tk-s-併發273-tk-s</link><generator>RSS for Node</generator><lastBuildDate>Sun, 31 May 2026 02:11:30 GMT</lastBuildDate><atom:link href="https://lcz.me/topic/369.rss" rel="self" type="application/rss+xml"/><pubDate>Sat, 30 May 2026 17:04:21 GMT</pubDate><ttl>60</ttl><item><title><![CDATA[Reply to 7900XTX vLLM Qwen3.6-27B W4A16 kernel  41.5 tk&#x2F;s 併發273 tk&#x2F;s on Sun, 31 May 2026 00:29:56 GMT]]></title><description><![CDATA[<p dir="auto">附帶一題 這個context 大小很極限  是把ubuntu gdm圖形介面關掉跑無頭 有gdm的會oom要再降</p>
]]></description><link>https://lcz.me/post/4406</link><guid isPermaLink="true">https://lcz.me/post/4406</guid><dc:creator><![CDATA[uly chen]]></dc:creator><pubDate>Sun, 31 May 2026 00:29:56 GMT</pubDate></item><item><title><![CDATA[Reply to 7900XTX vLLM Qwen3.6-27B W4A16 kernel  41.5 tk&#x2F;s 併發273 tk&#x2F;s on Sun, 31 May 2026 00:23:04 GMT]]></title><description><![CDATA[<p dir="auto">補圖</p>
<p dir="auto"><img src="https://upload.lcz.me/uploads/b37d0ed6-0bdf-48ac-908d-3d0de9cba7a7.jpg" alt="螢幕擷取畫面 2026-05-31 091136.jpg" class=" img-fluid img-markdown" /></p>
<p dir="auto"><img src="https://upload.lcz.me/uploads/cdb69627-91b5-408c-a27f-e1f89777f498.png" alt="螢幕擷取畫面 2026-05-31 091248.png" class=" img-fluid img-markdown" /></p>
<p dir="auto"><img src="https://upload.lcz.me/uploads/7b3c1e5e-3dfa-410d-b8ed-252449b2a335.png" alt="螢幕擷取畫面 2026-05-31 091047.png" class=" img-fluid img-markdown" /></p>
]]></description><link>https://lcz.me/post/4405</link><guid isPermaLink="true">https://lcz.me/post/4405</guid><dc:creator><![CDATA[uly chen]]></dc:creator><pubDate>Sun, 31 May 2026 00:23:04 GMT</pubDate></item><item><title><![CDATA[Reply to 7900XTX vLLM Qwen3.6-27B W4A16 kernel  41.5 tk&#x2F;s 併發273 tk&#x2F;s on Sat, 30 May 2026 17:07:25 GMT]]></title><description><![CDATA[<p dir="auto">有需要的抄作业，反馈下，贴主补一点截图。单独VENV是必须，一定要和ComfyUI分开，我深受其害。</p>
]]></description><link>https://lcz.me/post/4391</link><guid isPermaLink="true">https://lcz.me/post/4391</guid><dc:creator><![CDATA[terry]]></dc:creator><pubDate>Sat, 30 May 2026 17:07:25 GMT</pubDate></item></channel></rss>