自已的装机心得,AMD AI PRO R9700
-
x99, e52666v3, ddr3 64g, 2tb sata ssd, amd ai pro r9700
小白啊,我折腾了好久才把主机装好,连上机子好,装linux 老是花屏.
然后各种问ai,chatgpt说我的显卡有问题,而我换ddr的平台.
后来换到了qwen,是千问救了我啊.不过我现在装的是服务器版本.所以现在还不花花屏.不知道能不能更新到有图形界面,希望不会再花屏了.而且我装了windows没有花屏,windows logo过了之后黑屏了很久,但是chatgpt叫我等30分钟,我等了40分钟,还是黑屏,还是qwen救了我.不然我这个小白真的不会搞了..
哈哈,现在是装服务器版本的linux,希望能把模型跑起来.加油.
-
@ping-lin 看到你在X99平台上折腾R9700,分享几个经验:
-
花屏问题:新显卡(R9700是RDNA4架构)在老X99主板上花屏很常见,一般是UEFI vs CSM兼容性问题。Ubuntu 24.04桌面版启动时按e编辑grub,在
quiet splash后面加上amdgpu.dc=0试试。如果还不行就加nomodeset,装好驱动后再去掉。另外BIOS里检查下CSM开启状态,关掉CSM纯UEFI模式有时反而更稳定。 -
Server版装ROCM:Ubuntu Server没图形界面没问题,关键是装
linux-modules-extra-$(uname -r)包,这是amdgpu内核模块需要的。然后:
sudo apt update sudo apt install linux-modules-extra-$(uname -r) wget https://repo.radeon.com/amdgpu-install/latest/ubuntu/noble/amdgpu-install_6.3.60303-1_all.deb sudo apt install ./amdgpu-install_6.3.60303-1_all.deb sudo amdgpu-install --usecase=rocm-
一个更简单的路径:如果Server版折腾太麻烦,可以试试装Ubuntu 22.04 LTS桌面版(不是24.04),对老硬件兼容性更好,ROCm对22.04的支持也更成熟。启动时同样加
amdgpu.dc=0。 -
验驱动:装好后
rocm-smi能看到显卡温度和功率就是成了。然后llama.cpp的ROCm后端直接用-ngl 999就能调用。
刚入门X99调新卡是有点折腾的,但调通了这组合性价比很高!
-
-
-
我最新报道 ,这是AI给我的总结.呼呼!!
好的,以下是这次从花屏到完美运行的全过程总结。
失败心得1. 旧系统硬撑新硬件 —— 走弯路
- 错误:最初在 Ubuntu 22.04 的 5.15 内核上尝试驱动 RX 9700(RDNA 4 架构)。
- 后果:内核太旧,根本不认识新显卡,
amdgpu初始化直接报Fatal error during GPU init。 - 教训:新显卡必须配新内核。RDNA 4 需要 Linux 6.8+ 内核支持,硬在 5.15 上折腾纯属浪费时间。
2. 旧版 amdgpu-dkms 硬编译 —— 不兼容
- 错误:在 5.15 内核上安装的
amdgpu-dkms 6.7,升级到 6.8 内核后强行重新编译。 - 后果:API 接口变化导致编译报错
incompatible-pointer-types,模块构建失败。 - 教训:DKMS 模块和内核版本必须匹配。ROCm 6.x 的驱动是为 5.x 内核设计的,不能跨大版本强行编译。
3. 依赖过时的安装命令
- 错误:使用了旧的
amdgpu-install_6.3.60303-1_all.deb下载链接。 - 后果:404 Not Found,无法下载。
- 教训:AMD 的安装包路径经常更新,用之前先去官网确认最新版本号。
4. 纠结于缺失的 amdkfd.ko
- 错误:反复查找独立的
amdkfd.ko文件,认为缺少它 ROCm 就无法工作。 - 后果:浪费大量时间在编译、搜索模块上。
- 教训:新版 ROCm 已将 KFD 功能整合进
amdgpu主模块,只要/dev/kfd设备存在就说明没问题,不必纠结独立文件。
5. 权限问题被忽略
- 错误:用户未加入
render组,导致rocminfo报Permission denied。 - 后果:误以为是驱动没装好,反复重装。
- 教训:安装完驱动后,第一时间把用户加入 render 和 video 组,并退出重登使权限生效。
成功经验1. 果断换 Ubuntu 24.04 Server
- 关键决策:放弃 22.04,直接全新安装 24.04。
- 原因:24.04 自带的 6.8 内核原生支持 RDNA 4 架构,省去所有内核升级的麻烦。
2. 用 nomodeset 安全安装
- 操作:安装时在 GRUB 的
linux行末尾加nomodeset。 - 效果:完全避开花屏,确保安装过程顺利。
3. 选对 ROCm 版本
- 操作:使用
amdgpu-install_7.1.1脚本和--usecase=rocm参数。 - 效果:自动安装匹配 6.8 内核的
amdgpu-dkms 6.16.6,一次编译通过,无需手动干预。
4. 正确配置用户权限
- 操作:
sudo usermod -a -G render,video $USER,然后退出重登。 - 效果:
rocminfo成功识别 GPU,PyTorch 调用正常。
5. 验证完整链路
- 操作:从
rocm-smi到rocminfo到torch.cuda.is_available(),逐级验证。 - 效果:每一步都确认硬件→驱动→框架的链路畅通,最终输出
True+AMD Radeon AI PRO R9700。
6. Server 版 + 后装桌面
- 策略:先装纯净 Server 搭好 ROCm 环境,再装桌面。
- 好处:底层稳定后再加图形界面,风险隔离,出问题也容易定位。
终极总结一句话新显卡配新系统,驱动权限一步到位,别在旧内核上死磕。
-
你的 ROCm 安装实战总结
基于我们整个调试过程,帮你梳理踩过的坑和做对的事,下次重装/帮别人装时直接抄作业!
失败经验(踩坑清单)
坑点
具体表现
根本原因
避免方法
没插网线装系统
Ubuntu/Windows 安装卡"连接网络"或跳过关键步骤
安装程序依赖网络下载驱动/更新
装系统前先插好网线
BIOS 设置找错方向
在 Intel CPU 上找 AMD 的 SVM
混淆了 CPU 虚拟化技术(AMD=SVM, Intel=VT-d)
先确认 CPU 品牌,Intel 找 VT-d,AMD 找 SVM
DKMS 驱动冲突
lsmod 无输出,amdkfd.ko 缺失
内核自带 amdgpu + DKMS 编译版互相覆盖
优先用内核原生模块,或强制清理 DKMS 缓存
模块文件找不到
find ... -name "amdkfd.ko" 无输出
Ubuntu 模块是 .ko.xz 压缩格式
用 find ... -name "amdkfd*" 或查 modinfo
驱动版本不匹配
ROCm 6.1.3 for 22.04 编译失败
旧驱动包 + 新内核(5.15+)API 变更
系统版本 + 驱动版本 + 内核版本三者对齐
Secure Boot 干扰
模块编译成功但加载失败
未签名内核模块被阻止
安装前确认 mokutil --sb-state 显示 disabled
盲目重装系统
多次覆盖安装浪费时间
没先确认是软件配置问题还是系统问题
先排查驱动/内核/网络,最后再考虑重装
成功经验(关键操作)
正确操作
为什么有效
可复用的技巧
BIOS 三件套
VT-d + Above 4G Decoding + Interrupt Remapping
让 IOMMU 正常工作,GPU 才能被正确映射
所有 AMD 显卡 + 计算任务必开
GRUB 加 iommu=pt
启用 IOMMU 直通模式,减少虚拟化开销
命令行永久生效:GRUB_CMDLINE_LINUX_DEFAULT="... iommu=pt"
换 Ubuntu 24.04 + 新内核
6.8+ 内核对新人显卡(RDNA4)支持更好
新人显卡优先选最新 LTS + HWE 内核
装 linux-modules-extra
补全内核缺失的计算驱动模块
每次升级内核后都执行一遍
用官方 5 步安装法
版本对齐 + 依赖完整 + 流程标准化
复制粘贴官方文档命令,不魔改
覆盖安装而非升级
避免旧配置残留导致冲突
调试失败 >2 次时,直接重装更省时间
分步验证 + 及时截图
快速定位卡在哪一步
每执行 1-2 条命令就验证状态,报错立刻查
终极口诀(下次直接背)
1234567
额外心得
"能 SSH 就别纠结图形界面":服务器场景下,桌面环境是可选的,不是必须的
"内核原生驱动 > DKMS 编译":如果内核自带模块,优先用原生的,更稳
"新硬件配新系统":RX 9700 这种新显卡,别在老内核上硬刚,直接上 24.04 + 6.8+ 内核
"保留回退方案":装桌面时用 multi-user.target 默认进命令行,需要时再 startx,灵活又稳
你现在的最优状态
12345
这已经是跑 AI 的黄金起点了!
下次再装,照着这个总结走,30 分钟内必成!
-
上面总结的乱七八糟的,饶了很多弯路。
重点应该是:
- Ubuntu24.04 升级Linux Kernel 到 6.17的最新 (Linux是Kernel自带驱动的,升级到Ubuntu版本对应的最新Kernel就行了,除了N卡需要额外装驱动以外),推荐小白用Linux Mint22.3(等效Ubuntu24.04,UI操作习惯接近Windows)
- 升级Linux-firmware 到最新
- 安装ROCm 7.2.3 & Toolchain
- 编译适用gfx1201(R9700)的llama.cpp
- 偶尔有特殊情况需要在Grub加启动选项
“启用 IOMMU 直通模式,减少虚拟化开销” 这什么乱七八糟的,你又不是把显卡直通给虚拟机。
你可以在BIOS里开这些选项,但和你的问题没有因果关系。 -
我最新报道 ,这是AI给我的总结.呼呼!!
好的,以下是这次从花屏到完美运行的全过程总结。
失败心得1. 旧系统硬撑新硬件 —— 走弯路
- 错误:最初在 Ubuntu 22.04 的 5.15 内核上尝试驱动 RX 9700(RDNA 4 架构)。
- 后果:内核太旧,根本不认识新显卡,
amdgpu初始化直接报Fatal error during GPU init。 - 教训:新显卡必须配新内核。RDNA 4 需要 Linux 6.8+ 内核支持,硬在 5.15 上折腾纯属浪费时间。
2. 旧版 amdgpu-dkms 硬编译 —— 不兼容
- 错误:在 5.15 内核上安装的
amdgpu-dkms 6.7,升级到 6.8 内核后强行重新编译。 - 后果:API 接口变化导致编译报错
incompatible-pointer-types,模块构建失败。 - 教训:DKMS 模块和内核版本必须匹配。ROCm 6.x 的驱动是为 5.x 内核设计的,不能跨大版本强行编译。
3. 依赖过时的安装命令
- 错误:使用了旧的
amdgpu-install_6.3.60303-1_all.deb下载链接。 - 后果:404 Not Found,无法下载。
- 教训:AMD 的安装包路径经常更新,用之前先去官网确认最新版本号。
4. 纠结于缺失的 amdkfd.ko
- 错误:反复查找独立的
amdkfd.ko文件,认为缺少它 ROCm 就无法工作。 - 后果:浪费大量时间在编译、搜索模块上。
- 教训:新版 ROCm 已将 KFD 功能整合进
amdgpu主模块,只要/dev/kfd设备存在就说明没问题,不必纠结独立文件。
5. 权限问题被忽略
- 错误:用户未加入
render组,导致rocminfo报Permission denied。 - 后果:误以为是驱动没装好,反复重装。
- 教训:安装完驱动后,第一时间把用户加入 render 和 video 组,并退出重登使权限生效。
成功经验1. 果断换 Ubuntu 24.04 Server
- 关键决策:放弃 22.04,直接全新安装 24.04。
- 原因:24.04 自带的 6.8 内核原生支持 RDNA 4 架构,省去所有内核升级的麻烦。
2. 用 nomodeset 安全安装
- 操作:安装时在 GRUB 的
linux行末尾加nomodeset。 - 效果:完全避开花屏,确保安装过程顺利。
3. 选对 ROCm 版本
- 操作:使用
amdgpu-install_7.1.1脚本和--usecase=rocm参数。 - 效果:自动安装匹配 6.8 内核的
amdgpu-dkms 6.16.6,一次编译通过,无需手动干预。
4. 正确配置用户权限
- 操作:
sudo usermod -a -G render,video $USER,然后退出重登。 - 效果:
rocminfo成功识别 GPU,PyTorch 调用正常。
5. 验证完整链路
- 操作:从
rocm-smi到rocminfo到torch.cuda.is_available(),逐级验证。 - 效果:每一步都确认硬件→驱动→框架的链路畅通,最终输出
True+AMD Radeon AI PRO R9700。
6. Server 版 + 后装桌面
- 策略:先装纯净 Server 搭好 ROCm 环境,再装桌面。
- 好处:底层稳定后再加图形界面,风险隔离,出问题也容易定位。
终极总结一句话新显卡配新系统,驱动权限一步到位,别在旧内核上死磕。
-
上面总结的乱七八糟的,饶了很多弯路。
重点应该是:
- Ubuntu24.04 升级Linux Kernel 到 6.17的最新 (Linux是Kernel自带驱动的,升级到Ubuntu版本对应的最新Kernel就行了,除了N卡需要额外装驱动以外),推荐小白用Linux Mint22.3(等效Ubuntu24.04,UI操作习惯接近Windows)
- 升级Linux-firmware 到最新
- 安装ROCm 7.2.3 & Toolchain
- 编译适用gfx1201(R9700)的llama.cpp
- 偶尔有特殊情况需要在Grub加启动选项
“启用 IOMMU 直通模式,减少虚拟化开销” 这什么乱七八糟的,你又不是把显卡直通给虚拟机。
你可以在BIOS里开这些选项,但和你的问题没有因果关系。@jenaflex 其实我是小白,我都是一步一步跟着ai做的,chatpgt帮我带歪了,说是我的显卡有问题,内存有问题,更种硬件检测,毕竟咱们这个硬件配置在ai眼里就比较非传统..然后chatpgt叫我换cpu换内存....
然后我问qwen也叫我在22.04里面不停的折腾,后面是deepseek救了我..
不过qwen的起码让我跑起了server版本,让我的脆弱的内心又自信了起来..我就把chatgpt扔到一边去了.
最后的最后是deepseek救了我..我现在是把这主机当做服务器,在自己的笔记上连接运行他..现在是我这小白实践各种模型的安装和调试了..这个我又要学习了.实在是哥们,我什么都不懂啊..抱歉啊!!
-
@jenaflex 其实我是小白,我都是一步一步跟着ai做的,chatpgt帮我带歪了,说是我的显卡有问题,内存有问题,更种硬件检测,毕竟咱们这个硬件配置在ai眼里就比较非传统..然后chatpgt叫我换cpu换内存....
然后我问qwen也叫我在22.04里面不停的折腾,后面是deepseek救了我..
不过qwen的起码让我跑起了server版本,让我的脆弱的内心又自信了起来..我就把chatgpt扔到一边去了.
最后的最后是deepseek救了我..我现在是把这主机当做服务器,在自己的笔记上连接运行他..现在是我这小白实践各种模型的安装和调试了..这个我又要学习了.实在是哥们,我什么都不懂啊..抱歉啊!!
@ping-lin
那你也别大段大段的把 AI总结的不对的东西都贴上来啊我这之前不是有作业可以抄嘛,然后你把这些步骤不懂的部分,再让AI给你解答。
https://lcz.me/topic/67/申请精华帖-秀一下刚到的r9700-以及初步配置llama.cpp
AI是,你问的方向不对,它完全有可能给你越带越偏。
所以你可以先抄一个已经成功的作业,大致方向是可行的,然后让AI帮你解决你硬件和软件匹配和我这个不一样的地方。你可以让AI读我这个帖子,然后找出硬件配置和你不同的地方,然后让AI重新给你生成一套方案。
另外免费版ChatGPT很拉,我都用付费版Gemini或者DeepSeek免费版