加入 7900XTX队列 + huihui Qwen3.6-27B 无审查版,驱动Hermes
-
YT看老特视频被种草,退掉了发货途中的Rtx PRO4000,穷逼佬拥抱性价比高的7900xtx.
618下单的7900xtx今天才有时间折腾。
主板小雕,板U都是5年前的垃圾了。
️ ai-server 完整配置 + 性能实测报告
一、硬件配置
CPU: Intel Core i5-10400F (6核12线程, 2.9~4.3GHz)
GPU: AMD Radeon RX 7900 XTX 24GB (蓝宝石 PULSE)
内存: 16GB DDR4
Swap: 19GB
存储: 171GB SSD (可用 83GB)
二、软件环境
系统: Ubuntu 24.04.4 LTS
内核: 6.8.0-124-generic
ROCm: 7.2.4 (gfx1100)
Python: 3.12.3 (venv 环境)
PyTorch: 2.12.1+rocm7.2 (HIP 7.2.53211)
三、LLM 推理服务
模型: Qwen 3.6 27B Abliterated (Q4_K_M 量化)
框架: llama.cpp (systemd 守护进程, ROCm GPU 加速)
模型大小: ~16GB
上下文窗口: 131,072 tokens
KV 缓存: q4_0 量化
GPU 显存占用: ~18.5GB / 24GB (77%)
服务端口: 1234 (OpenAI API 兼容)启动参数:
--ctx-size 131072
-ngl 99 (全层 offload 到 GPU)
--flash-attn on
-b 2048 -ub 512
-ctk q4_0 -ctv q4_0
--jinja
四、性能实测数据
测试方式: 直接调用运行中服务的 OpenAI 兼容 API,非独立 benchmark,反映真实负载表现。▎生成速度 (Decoding)
短请求 (10-50 tokens): 31~32 tokens/s (~31ms/token)
中等请求 (200 tokens): 29.6 tokens/s (~34ms/token)
长请求持续生成 (500+ tokens): 22.9~23.1 tokens/s (~43ms/token)▎Prompt 处理速度 (Prefill)
17 tokens: 16.9 tokens/s (59ms/token)
30 tokens: 156.1 tokens/s (6.4ms/token)
214 tokens: 353.8 tokens/s (2.8ms/token)▎首字延迟 (TTFT)
冷启动: 1.3 ~ 1.7 秒
热缓存: < 1 秒
五、运行状态
GPU 温度: 边缘 56°C / 核心 67°C / 显存 65°C
功耗: 空闲 65W / 峰值 300W
风扇: 安静运行
服务运行时间: 持续运行,已稳定服务
六、总结
24GB 显存跑 27B 量化模型,生成速度稳定在 23 tokens/s,完全满足实时对话需求。Prompt 处理峰值达 354 tokens/s,长上下文理解速度很快。ROCm 在持续生成场景表现稳定,短请求响应更快。首字延迟 1-1.7 秒在可接受范围内。
求大佬帮忙看看还能怎样进一步优化
。之前都是用的在线模型.