抡锤者

jenaflex

享用顺序，新手先看“二更”，然后到第7步开始按照“一更”

原帖：
可以开始玩啦
升级下Linux kernel 到6.17

inxi -G
Graphics:
  Device-1: Intel HD Graphics 530 driver: i915 v: kernel
  Device-2: AMD driver: amdgpu v: kernel
  Display: x11 server: X.Org v: 21.1.11 with: Xwayland v: 23.2.6 driver: X:
    loaded: modesetting unloaded: fbdev,vesa dri: iris gpu: i915
    resolution: 1920x1200~60Hz
  API: EGL v: 1.5 drivers: iris,kms_swrast,radeonsi,swrast
    platforms: gbm,x11,surfaceless,device
  API: OpenGL v: 4.6 compat-v: 4.5 vendor: intel mesa
    v: 25.2.8-0ubuntu0.24.04.1 renderer: Mesa Intel HD Graphics 530 (SKL GT2)
  API: Vulkan v: 1.3.275 drivers: N/A surfaces: xcb,xlib

硬件配置：
i3-6100 (2核4线程 3.7GHz）(国内海鲜市场+海运)
16GB DDR4 2666
线下$40淘到的华硕Z170 败家之眼ROG Maximus VIII Hero

其实这上述是我的开放测试平台，如果都没啥问题，我就给它挪到一个戴尔T7920工作站了（也是线下二手）
那台是Xeon Gold 6130
32GB ECC

一更：

操作系统选择：
我习惯用Linux Mint 22.3（Kernel 6.17，等效于Ubuntu24.04），因为其桌面更像Windows操作习惯，并且整体也更精简稳健，内存消耗小，不像Ubuntu有时候给你硬塞一些花里胡哨的东西。

Mint安装的时候，还自带一个傻瓜化工具，能在已经安装了Windows的SSD上重新分割分区，来装双系统。

走的弯路#1：没有在BIOS禁用i3 6100的Intel 核显
本意是想两者共存，核显可以干点别的事（比如视频转码）
但是无论怎么在grub里面加参数（比如，禁用Intel的3D加速、休眠），一开x11vnc，都会kernel panic宕机。
原因“x11vnc的高频抓屏触发了Intel核显老旧的休眠唤醒 Bug，直接把系统内核卡死了。”

走的弯路#2：尝鲜Ubuntu 26.04
最初在Mint22.3，用LM-Studio Rocm版llama.cpp 无法识别R9700（系统识别正常）。用Gemini查了一圈，以为是kernel和linux-firmware太老，所以图省事就去尝鲜刚刚发布的Ubuntu 26.04（kernel 7.0）。
结果，Ubuntu26.04 自带的Rocm是7.1，虽然LM-Studio的Rocm版llama.cpp识别了R9700，仍然是加载模型卡在99% （所以还有人去趟ROCM 7.1的坑，也是无语）。然而升级Rocm到7.2.3的复杂度和用Mint 22.3（U24.04)没差别。

初步成功
最后回到Mint22.3，配置好了，先是简单测试，感觉24t/s有点小失望，还有优化空间。

LM-Studio的Vulkan runtime，完全懒人傻瓜化，打开即用，23t/s
编译Rocm llama.cpp-server
LM-Studio 没有针对 AMD R9700编译的Rocm llama.cpp
已经尝试通过加launch参数 - 伪装RDNA3的办法，加载模型会长时间卡在97%

遂自己编译 llama.cpp, 24t/s

详细过程如下

升级Linux-firmware

git clone git://git.kernel.org/pub/scm/linux/kernel/git/firmware/linux-firmware.git
sudo rsync -av linux-firmware/amdgpu/ /lib/firmware/amdgpu/
sudo update-initramfs -u
# 最后重启

安装ROCm 7.2.3 & Toolchain

# Install the ROCm repository and base userspace
wget https://repo.radeon.com/amdgpu-install/7.2.3/ubuntu/noble/amdgpu-install_7.2.3.70203-1_all.deb
sudo apt install ./amdgpu-install_7.2.3.70203-1_all.deb
sudo amdgpu-install --usecase=rocm --no-dkms

# Install specific development headers and the LLVM compiler
sudo apt install rocm-llvm hipblas-dev rocblas-dev
sudo usermod -a -G render,video $USER

编译适用gfx1201（R9700）的llama.cpp
注：如果编译中要是缺东西，往往是路径给错了

git clone https://github.com/ggerganov/llama.cpp
cd llama.cpp && mkdir build && cd build

cmake .. -DGGML_HIP=ON \
    -DAMDGPU_TARGETS=gfx1201 \
    -DCMAKE_C_COMPILER=/opt/rocm-7.2.3/llvm/bin/clang \
    -DCMAKE_CXX_COMPILER=/opt/rocm-7.2.3/llvm/bin/clang++ \
    -DCMAKE_PREFIX_PATH=/opt/rocm-7.2.3

make llama-server -j$(nproc)

最后跑起来
先测下40k上下文，开了Flash Attention， KV Q8

~/llama.cpp/build/bin/llama-server -m /home/<user>/.lmstudio/models/lmstudio-community/Qwen3.6-27B-GGUF/Qwen3.6-27B-Q4_K_M.gguf --port 1234 -ngl 999 -c 40960 -fa on --cache-type-k q8_0 --cache-type-v q8_0 --threads 2

去浏览器输入 localhost:1234，就可以看到对话窗口（如之前截图）

二更：
看到最近两个配置R9700的都遇到了问题，我来顶一下自己的帖子吧。

问 AI 关键要找准方向、用对提示词，否则起步方向不对，很容易被它带偏。比如提问时，先让 AI 提供打印系统信息（软硬件版本）的命令行，你再把运行结果粘贴反馈给它。

建议 R9700 新手直接抄我这个成功作业，大方向绝对可行。然后把帖子发给 AI，让它对比你和我的软硬件配置差异，帮你针对性地调整方案（比如修改命令行）。

新手拿到硬件，可以按照以下步骤：

下载Ubuntu 24.04 或者 Linux Mint 22.3(Ubuntu变种）的iso镜像，用 Etcher或Rufus烧写到空u盘
启动引导到u盘，Ubuntu和Mint的Live USB，都是能加载u盘上的系统的。用终端命令行（Terminal），
输入

lspci | grep -i "amd"

(或者nvidia，Intel等关键词; -i 不区分大小写），看你的显卡是否被正确识别。
3. 正常安装Ubuntu或者Mint到你的系统盘SSD。安装完毕，按提示拔u盘，重启
4. 重启到新安装的系统，用lspci和inxi -G命令确保显卡被识别
5. N卡必须安对 Linux 驱动（可咨询 AI）。
比如我之前折腾老卡 Tesla P100，AI 建议 535，但最后死活得用 580 驱动加手动编译 llama.cpp 才搞定。另外像 P100、V100 这类计算卡（虽不推荐），建议用官方 dcgmi 工具测下显存。
A卡及其他硬件：只要不是最新型号，驱动基本都内置在 Linux 内核（Kernel）里。但如果内核太老，驱动就会缺失或版本过旧。
6. 升级Linux kernel到你当前系统支持的最新，比如我在LinuxMint22.3里能选的最新Linux kernel是6.17（你的情况可能不一定完全一样）

下图是AMD官方说明，GA=GeneralAvailability，HWE=Hardware Enablement
如果看Ubuntu 24.04的话，HWE的最低版本是6.14（我个人选择和建议是：升到新一点的kernel，这样驱动也新一些）

AI Pro R9700的系统支持

ROCM软件的系统支持

接着按照我上面说的吧。
由于llama.cpp Rocm的预编译好的runtime里面，很可能没有R9700的支持（我当时就没有；并且伪装RDNA3显卡的办法也不管用，load model卡在了97%），所以需要自己编译。7900xtx比较老，我记得用预编译好的llama.cpp Rocm的runtime就行（偷懒可以直接用lm studio搞定）。

jenaflex

TLDR：新手不要碰DGX Spark（GB10）
如果你没有大量经验的话，别碰！

你就算错买了 AMD AI Max 395 128GB，大不了还能用来打游戏，当Proxmox server用。
你就算错买了 Mac Studio 128GB，还很保值，大不了还能卖掉。

DGX Spark的芯片SM121最初的设计是一个游戏APU（N1X）和AI（GB10）两吃产品，并且跳票了超过一年多（出处：Moore' law is Dead. https://youtu.be/o8FL3nVDM5M?si=byA9yR5k0U8MTAI5）。

因为游戏APU是需要Windows for Arm的适配，而微软那个屎山Bug巨多无比。所以等不及了，只能先开卖DGX Spark。

SM121芯片和NV专业芯片设计有很多区别，导致生态和支持一直有问题，被NV官方论坛里的开发者诟病很多（自己Google一下就知道了）。

这么小众的产品（还是个半成品），你不能指望NV会让团队花很多精力去修正生态问题。

不差钱，就RTX 6000 Blackwell 96GB
至于同样$3500-4000预算，怎么花，见仁见智了。

想玩120b moe大模型（非生产力），其实可以考虑Mac 128GB，玩腻了，保值卖掉。
生产力，就还是N卡，买你买得起，且用得到的。听老特建议就好

jenaflex

Above 4G Decoding的作用：
允许系统跨越 4GB 内存界限，为显卡分配更高的内存寻址空间（内存=广义上的内存，不是指内存条）。
类比：拓宽道路

Resizable BAR的作用：
解除每次只能向显卡传输 256MB 数据的限制，让 CPU 可以一次性直接访问全部显存。
类比：不需要骑三轮车几百趟，直接上卡车车队

X99原本是不支持Resizable BAR，但是有魔改的BIOS可以支持。
华南等一众魔改主板，你要和卖家确定是能真的能打开。
很多时候魔改 BIOS 仅仅是把菜单选项“显示”出来了，底层并没有写入正确的微代码（Microcode），属于花架子，无法实际生效（b站上有教程，自己找）。

Resizable BAR是不是必要?
不是，对单卡性能影响比较小。
但是你要多卡张量并行，就需要Resizable BAR。

jenaflex

@densha 二手退役的笔记本，或者Dell Micro，HP Mini，Lenovo Tiny那种一公升小主机，都很适合。而且最好在小主机上装Proxmox，然后上面部署虚拟机（还能时不时做系统快照），万一被Hermes搞崩了，就回滚到之前快照就行。不熟悉Proxmox，也可以用VirtualBox

jenaflex

@terry 好的，不着急，我也看看我兴趣在哪个版块比较多。我之前玩Homelab，Linux比较多，comfy-ui经验比较少。总之，谢谢老特信任。

jenaflex

申请“AI硬件”版主，谢谢老特和大伙信任

jenaflex

ZOL、太平洋回忆满满哈哈哈哈，还存着很多电脑自作、微型计算机杂志呢，我自己装的第一台电脑是 AMD Socket 939的速龙3000+ 搭配nVidia芯片组（GeForce 6100/nForce 410）。
现在偶尔逛chiphell哈哈哈哈
当年最眼馋的显卡是 nVidia 6800 GT，可惜当时穷学生一个，买不起。

jenaflex

@y2k 说:

2002读大一的时候，就行玩qq聊天，那时候啥都不会，没钱买资料，又想学，于是每周去学校图书馆占位看电脑报，一周出2期，学校每日期都会买下供学生看，我就是看了一整年电脑报，从一个菜鸟变成老鸟，之后去图吧各种捡垃圾，玩amd超频，结果是索然无味的，但是过程乐趣无穷

超频乐趣无穷，就是相当于当年的“赛博斗蛐蛐”

jenaflex

@terry 搞AI赛博小妹吧

jenaflex

@Daniel 我最近要测试PVE的虚拟机+GPU硬件直通 vs Baremetal（即Linux原生直连GPU）
不过会是R9700，看一下有没有性能损失。我估计在5%以内

jenaflex

@terry 老特带咱们入门，教学相长
感觉DGX Spark本意是给开发者用的试验平台，调试成功以后再无(痛)缝(苦)迁移到大显存的服务器。但是，其实DGX Spark的调试的坑可能比直接上服务器、或专业卡还要坑。

jenaflex

@Tony-Wang 大坑，别买。网上论坛说不稳定，并且显卡不是标准的，没法拆出来单用。

jenaflex

@terry 说:

@jenaflex 哥你这信息是AI告诉你的吗？华南金牌新板子都只支持above 4G 和rebar，我今年春节买的，默认就支持，不需要手动刷。

不是啊，我手写的，让AI润色了下。另外，我自己去B站看视频的。还有这个reddit老外，也是被迫关了rebar
https://www.reddit.com/r/LocalLLaMA/comments/1j1k2uz/tensor_parallel_bottlenecks_cpu_resizable_bar/?show=original

论坛里不是有两个帖子都说，开了rebar花屏么？就怀疑他们买到的板子的BIOS有可能不对。一些妖板或早期华擎主板，就是会有些BIOS选项开在那里，但实际无效的。

jenaflex

前几天MicroCenter还是$5000，今天一看突然涨价到$6000了

jenaflex

对着显卡加个前置的机箱风扇，防止机箱内积热就行

jenaflex

我比较看好AMD下代旗舰游戏显卡
36GB GDDR7, 1.7T带宽，我猜可能$1499
也该也会有对应专业卡版本，但普通人够用了。
Youtube Video – [16:39..]

jenaflex

用Cloudflare Tunnels的反代，和Nginx效果也差不多吧，躲在Cloudflare后面安全多了

jenaflex

@gk20082000 你大概跑出什么速度？

我看了这个帖子 27B，好像只能到29t/s
而且是benchmark速度，而我那个是对话实测速度。
https://github.com/ggml-org/llama.cpp/discussions/21043

但GitHub帖子里，用RADV（mesa）驱动的prefill的确有巨大提升。