人生第一次组装PC到部署本地ai~真正小白7900xtx部署记录
-
先交代下背景,本人是纯纯的硬件与编程“双料小白”。生平第一次自己组装 PC,在动手之前,我对 CPU、内存、主板的具体作用几乎一无所知,更别提什么是 VRAM 或推理框架了。5月初看完老特视频后在中旬开始搞硬件。我这边二手资源可以,全程除了主板其他都是9新二手 一共花了8200吧。
️ 硬件环境
项目 配置详情 备注/价格
GPU AMD Radeon RX 7900 XTX 、¥4250
CPU主板 X99-QD3 Intel Xeon E5-2666 v3 某宝购买,约 ¥516
内存 DDR3 64GB (16GB x 4) 拼多多购入,总计约 ¥575
存储 Hynix P31 2TB SSD ¥1400
电源 振华 (Super Flower) 1200W ¥900,为未来留余量
系统 Ubuntu 24.04 Server/Desktop 版

光组装机子就一路问gemini 一个个搞。如果像我一样没有组装过的小白问GEMINI时把主板说明书图片扔给gemini之后,让他生图来告诉你。因为用文字我都分不清具体要插哪个孔

接下来 用Usb 问gemini 下载了rufus 来烤ubantu 24.04之后成功安装程序。进入之后就下了个codex 把论坛里现成的大神测试过的连接发给他,让他给我做一模一样的部署。 开始我参考的是https://lcz.me/topic/100/7900xtx-llama.cpp-qwen3.6-27b-turboquant-mtp-测试结果分享 之后我发现Qwen3.6 27B TurboQuant + MTP的效果很慢,效果不怎么理想。按照老特的说法直接用hermes调用deepseek的api 充了20块钱。让他给我下载voxcpm之类的程序。但就在这时我又发现了另一个帖子
https://lcz.me/topic/501/lucebox-dflash-huihui-7900-xtx-上真-无审查-极速推理完全折腾纪实/10#gsc.tab=0 这个无审查模式。实测的结果感觉不错!同样也是让hermes进到论坛之后让它审阅照搬。部署了之后体感上本地qwen速度确实快了3-4倍。
下面内容是hermes告诉我的供大家参考吧,这些值是什么我看了也搞不清。。反正在小白角度上只要运转起来能干活就行。哈哈 从早折腾到这个点!帖子最后感谢老特以及各位大神们的分享让我这种小白也成功部署成功本地ai..后面也跟各位多多学习部署结果展示 │
│ │
│ ### 硬件环境 │
││ │ CPU: Intel(R) Core(TM) i7-9700K / Z390 chipset │ │ GPU: AMD Radeon RX 7900 XTX 24GB (Vulkan) │ │ RAM: 64GB DDR4 │ │ 系统: Ubuntu 24.04 LTS │ │ 存储: NVMe SSD (ai_model 分区 1.1TB) │ │ ROCm: 7.2.4 (Vulkan backend via llama.cpp) │ ││
│ │
│ ### 模型部署方案 │
│ │
│ #### 尝试方案 A:Lucebox DFlash (C++ server)
│
│ | 项目 | 结果 | │
│ |------|------| │
│ | 克隆 + submodule |
成功 | │
│ | HIP 编译 (gfx1100, FA_ALL_QUANTS=ON) |
成功 | │
│ | 产物 |dflash_server(3.5MB),test_dflash(1.4MB) | │
│ | 模型加载 |
14.73 GiB | │
│ | 32K 上下文 |
️ 启动成功,但 Hermes 系统提示词 ~17K tokens → prefill 阶段 OOM | │
│ | 49K 上下文 |
启动阶段即爆显存 (cudaMalloc failed) | │
│ | 结论 | C++ dflash_server 预分配全部 KV cache,24GB VRAM 不足以同时承载 14.7G 模型 + 投机解码 look_ahead buffer |方案 B:llama.cpp Vulkan
最终定版 ││ | 项目 | 值 | │
│ |------|-----| │
│ | 引擎 | llama.cpp (Vulkan build) | │
│ | 主模型 | Huihui-Qwen3.6-27B-abliterated.Q4_K_M.gguf (16 GB) | │
│ | 量化 | Q4_K_M | │
│ | 上下文 | 65,536 tokens (稳定) | │
│ | 速度 | ~35 tok/s (实测) | │
│ | 显存占用 | ~20 GB / 24 GB | │
│ | 去审查 |
真无审查 (Huihui abliterated) | │
│ | 端口 |http://127.0.0.1:11435/v1(OpenAI 兼容) | │
│ │
│ ### 磁盘占用 │
││ │ lucebox-hub/ 18 GB (源码+编译+模型) │ │ ├── models/Huihui-Q*.gguf 16 GB (主模型) │ │ ├── models/draft/*.gguf 1 GB (DFlash草稿模型, 留作备用) │ │ ├── build/dflash_server 3.5 MB (已编译, 后续可改用 Python server.py) │ │ └── rest 1 GB (源码+编译中间文件) │ ││
│ │
│ ### Hermes 接入 │
│yaml │ │ custom_providers: │ │ - name: local-dflash │ │ base_url: http://127.0.0.1:11435/v1 │ │ model: huihui-qwen3.6-27b │ │ context_length: 65536 │ ││
│ │
│ ### 经验总结 │
│ 1. DFlash C++ server 在 24GB 卡上很极限 — 模型 14.7G + 草稿 ~0.5G + KV cache + look_ahead buffer,32K 上下文勉强能启动但 prefill 大提示词会 OOM │
│ 2. Python server.py (按需分配 KV cache) 理论上能跑更大上下文,但仓库里没有提供(帖子作者用的是自己写的脚本) │
│ 3. llama.cpp Vulkan 最稳 — 同硬件上下文能开到 131K,虽然速度只有 ~35 tok/s 对比 DFlash 的 ~81 tok/s,但稳定性和兼容性最好 │
│ 4. mradermacher 的 Q4_K_M GGUF 兼容性最好 — 帖子作者也确认了这一点 │
│ 5. 建议有 48GB+ 显存卡的坛友尝试 DFlash Python server,24GB 卡建议用 llama.cpp -
恭喜入坑~7900XTX家族
-
,
T terry 固定了此主题
-
恭喜入坑~7900XTX家族
-
其实没有什么大佬, 你多用 就行了. 其实门槛挺低的, 想要做什么 ,就告诉他 自然语言就行了.
我也是烧了100亿token 才醒悟的.咱们不是 做底层 infra + research层的, 没必要.
咱们用好AI技术, 能够让他干活 ,提升自己工作效率 就够了.
-
为什么你的ram可以买得那么便宜
,我刚刚加购 32gb ddr4 x 2 = RM1500马币 (RMB2400) 
-
为什么你的ram可以买得那么便宜
,我刚刚加购 32gb ddr4 x 2 = RM1500马币 (RMB2400) 
-
关于蓝宝石 7900 的噪音。重度峰值工作也没什么噪音。声浪来源都是 机箱通风风扇或 CPU 风扇在响。我用手触停止法测试的。请放心参考。
-
,系统 取消固定了此主题

