人生第一次组装PC到部署本地ai~真正小白7900xtx部署记录

Q maria

先交代下背景，本人是纯纯的硬件与编程“双料小白”。生平第一次自己组装 PC，在动手之前，我对 CPU、内存、主板的具体作用几乎一无所知，更别提什么是 VRAM 或推理框架了。5月初看完老特视频后在中旬开始搞硬件。我这边二手资源可以，全程除了主板其他都是9新二手一共花了8200吧。
️ 硬件环境
项目配置详情备注/价格
GPU AMD Radeon RX 7900 XTX 、¥4250
CPU主板 X99-QD3 Intel Xeon E5-2666 v3 某宝购买，约 ¥516
内存 DDR3 64GB (16GB x 4) 拼多多购入，总计约 ¥575
存储 Hynix P31 2TB SSD ¥1400
电源振华 (Super Flower) 1200W ¥900，为未来留余量
系统 Ubuntu 24.04 Server/Desktop 版
20260622_115357 (1).jpg

光组装机子就一路问gemini 一个个搞。如果像我一样没有组装过的小白问GEMINI时把主板说明书图片扔给gemini之后，让他生图来告诉你。因为用文字我都分不清具体要插哪个孔

接下来用Usb 问gemini 下载了rufus 来烤ubantu 24.04之后成功安装程序。进入之后就下了个codex 把论坛里现成的大神测试过的连接发给他，让他给我做一模一样的部署。开始我参考的是https://lcz.me/topic/100/7900xtx-llama.cpp-qwen3.6-27b-turboquant-mtp-测试结果分享之后我发现Qwen3.6 27B TurboQuant + MTP的效果很慢，效果不怎么理想。按照老特的说法直接用hermes调用deepseek的api 充了20块钱。让他给我下载voxcpm之类的程序。但就在这时我又发现了另一个帖子
https://lcz.me/topic/501/lucebox-dflash-huihui-7900-xtx-上真-无审查-极速推理完全折腾纪实/10#gsc.tab=0 这个无审查模式。实测的结果感觉不错！同样也是让hermes进到论坛之后让它审阅照搬。部署了之后体感上本地qwen速度确实快了3-4倍。
下面内容是hermes告诉我的供大家参考吧，这些值是什么我看了也搞不清。。反正在小白角度上只要运转起来能干活就行。哈哈从早折腾到这个点！帖子最后感谢老特以及各位大神们的分享让我这种小白也成功部署成功本地ai..后面也跟各位多多学习

部署结果展示 │

│ │
│ ### 硬件环境 │
│ │ │ CPU: Intel(R) Core(TM) i7-9700K / Z390 chipset │ │ GPU: AMD Radeon RX 7900 XTX 24GB (Vulkan) │ │ RAM: 64GB DDR4 │ │ 系统: Ubuntu 24.04 LTS │ │ 存储: NVMe SSD (ai_model 分区 1.1TB) │ │ ROCm: 7.2.4 (Vulkan backend via llama.cpp) │ │ │
│ │
│ ### 模型部署方案 │
│ │
│ #### 尝试方案 A：Lucebox DFlash (C++ server) │
│ | 项目 | 结果 | │
│ |------|------| │
│ | 克隆 + submodule | 成功 | │
│ | HIP 编译 (gfx1100, FA_ALL_QUANTS=ON) | 成功 | │
│ | 产物 | dflash_server (3.5MB), test_dflash (1.4MB) | │
│ | 模型加载 | 14.73 GiB | │
│ | 32K 上下文 | ️ 启动成功，但 Hermes 系统提示词 ~17K tokens → prefill 阶段 OOM | │
│ | 49K 上下文 | 启动阶段即爆显存 (cudaMalloc failed) | │
│ | 结论 | C++ dflash_server 预分配全部 KV cache，24GB VRAM 不足以同时承载 14.7G 模型 + 投机解码 look_ahead buffer |

方案 B：llama.cpp Vulkan 最终定版 │

│ | 项目 | 值 | │
│ |------|-----| │
│ | 引擎 | llama.cpp (Vulkan build) | │
│ | 主模型 | Huihui-Qwen3.6-27B-abliterated.Q4_K_M.gguf (16 GB) | │
│ | 量化 | Q4_K_M | │
│ | 上下文 | 65,536 tokens (稳定) | │
│ | 速度 | ~35 tok/s (实测) | │
│ | 显存占用 | ~20 GB / 24 GB | │
│ | 去审查 | 真无审查 (Huihui abliterated) | │
│ | 端口 | http://127.0.0.1:11435/v1 (OpenAI 兼容) | │
│ │
│ ### 磁盘占用 │
│ │ │ lucebox-hub/ 18 GB (源码+编译+模型) │ │ ├── models/Huihui-Q*.gguf 16 GB (主模型) │ │ ├── models/draft/*.gguf 1 GB (DFlash草稿模型, 留作备用) │ │ ├── build/dflash_server 3.5 MB (已编译, 后续可改用 Python server.py) │ │ └── rest 1 GB (源码+编译中间文件) │ │ │
│ │
│ ### Hermes 接入 │
│ yaml │ │ custom_providers: │ │ - name: local-dflash │ │ base_url: http://127.0.0.1:11435/v1 │ │ model: huihui-qwen3.6-27b │ │ context_length: 65536 │ │ │
│ │
│ ### 经验总结 │
│ 1. DFlash C++ server 在 24GB 卡上很极限 — 模型 14.7G + 草稿 ~0.5G + KV cache + look_ahead buffer，32K 上下文勉强能启动但 prefill 大提示词会 OOM │
│ 2. Python server.py (按需分配 KV cache) 理论上能跑更大上下文，但仓库里没有提供（帖子作者用的是自己写的脚本） │
│ 3. llama.cpp Vulkan 最稳 — 同硬件上下文能开到 131K，虽然速度只有 ~35 tok/s 对比 DFlash 的 ~81 tok/s，但稳定性和兼容性最好 │
│ 4. mradermacher 的 Q4_K_M GGUF 兼容性最好 — 帖子作者也确认了这一点 │
│ 5. 建议有 48GB+ 显存卡的坛友尝试 DFlash Python server，24GB 卡建议用 llama.cpp

Tony Wang

千里之行, 始于足下

mark

AMD Radeon RX 7900 XTX , 最近论坛好多人买这个, 性价比高.

加油吧. 拥抱AI时代.

Q maria

@Tony-Wang 大佬们这个点一直都在啊！

Q maria

@mark 哈哈算是跟Ai握了个手..拥抱还是需要钞票

mark

其实没有什么大佬, 你多用就行了. 其实门槛挺低的, 想要做什么 ,就告诉他自然语言就行了.
我也是烧了100亿token 才醒悟的.

咱们不是做底层 infra + research层的, 没必要.

咱们用好AI技术, 能够让他干活 ,提升自己工作效率就够了.

CHIA AN YANG

恭喜入坑~7900XTX家族

Q maria

@CHIA-AN-YANG x谢谢 7900xtx 声音很小啊基本没噪音！可能我还没跑重任务的原因

Q maria

@mark 嗯主要我是太不懂了哈哈确实AI对我这种小白帮助很大。

kos or

假如是白色顯卡在台灣都要比黑色 + 1000台幣
ASUS 還有全新的 7900XTX ? 奇怪台灣都沒貨

我PSU也是用Leadex的

imbiplaza ASUS

为什么你的ram可以买得那么便宜，我刚刚加购 32gb ddr4 x 2 = RM1500马币（RMB2400）

Q maria

@kos-or 我买的是二手7900xtx 但AS到28年11月的

Q maria

@imbiplaza-ASUS 在拼多多买的翻新的我是ddr3

abaalei

@imbiplaza-ASUS
最近这边内存都在稳步下降，ddr4 reg ecc 16g 海力士 2133 颗粒，单条最贵我买到过280，现在稳步降低到230多了

williamlouis

关于蓝宝石 7900 的噪音。重度峰值工作也没什么噪音。声浪来源都是机箱通风风扇或 CPU 风扇在响。我用手触停止法测试的。请放心参考。

ken chan

7900xtx和amd 9700 能混合起来用吗？24g+32g=56g 显存？

566656661

@ken-chan

可以, 用llama.cpp, 不要用vLLM就好

抡锤者

人生第一次组装PC到部署本地ai~真正小白7900xtx部署记录

部署结果展示 │

方案 B：llama.cpp Vulkan 最终定版 │