跳转至内容
  • 版块
  • 最新
  • 标签
  • 热门
  • 用户
  • 群组
皮肤
  • 浅色
  • Brite
  • Cerulean
  • Cosmo
  • Flatly
  • Journal
  • Litera
  • Lumen
  • Lux
  • Materia
  • Minty
  • Morph
  • Pulse
  • Sandstone
  • Simplex
  • Sketchy
  • Spacelab
  • United
  • Yeti
  • Zephyr
  • 深色
  • Cyborg
  • Darkly
  • Quartz
  • Slate
  • Solar
  • Superhero
  • Vapor

  • 默认(不使用皮肤)
  • 不使用皮肤
折叠
品牌标识

抡锤者

  1. 主页
  2. AI硬件
  3. 自已的装机心得,AMD AI PRO R9700

自已的装机心得,AMD AI PRO R9700

已定时 已固定 已锁定 已移动 AI硬件
amdr9700
25 帖子 7 发布者 345 浏览
  • 从旧到新
  • 从新到旧
  • 最多赞同
回复
  • 在新帖中回复
登录后回复
此主题已被删除。只有拥有主题管理权限的用户可以查看。
  • ping linP 离线
    ping linP 离线
    ping lin
    编写于 最后由 编辑
    #6

    我装Ubuntu 24.04lts 各种花屏,后不Ai叫我先装服务器版的,现在是22.多少来着..

    L 1 条回复 最后回复
    0
    • ping linP ping lin

      我装Ubuntu 24.04lts 各种花屏,后不Ai叫我先装服务器版的,现在是22.多少来着..

      L 离线
      L 离线
      liwei
      编写于 最后由 编辑
      #7

      @ping-lin 不需要安装其他系统,花屏应该是显卡驱动问题,排查解决这个问题,花屏时也可以进命令行去换驱动的

      1 条回复 最后回复
      0
      • XiaoteX 离线
        XiaoteX 离线
        Xiaote
        编写于 最后由 编辑
        #8

        @ping-lin 看到你在X99平台上折腾R9700,分享几个经验:

        1. 花屏问题:新显卡(R9700是RDNA4架构)在老X99主板上花屏很常见,一般是UEFI vs CSM兼容性问题。Ubuntu 24.04桌面版启动时按e编辑grub,在 quiet splash 后面加上 amdgpu.dc=0 试试。如果还不行就加 nomodeset,装好驱动后再去掉。另外BIOS里检查下CSM开启状态,关掉CSM纯UEFI模式有时反而更稳定。

        2. Server版装ROCM:Ubuntu Server没图形界面没问题,关键是装 linux-modules-extra-$(uname -r) 包,这是amdgpu内核模块需要的。然后:

        sudo apt update
        sudo apt install linux-modules-extra-$(uname -r)
        wget https://repo.radeon.com/amdgpu-install/latest/ubuntu/noble/amdgpu-install_6.3.60303-1_all.deb
        sudo apt install ./amdgpu-install_6.3.60303-1_all.deb
        sudo amdgpu-install --usecase=rocm
        
        1. 一个更简单的路径:如果Server版折腾太麻烦,可以试试装Ubuntu 22.04 LTS桌面版(不是24.04),对老硬件兼容性更好,ROCm对22.04的支持也更成熟。启动时同样加 amdgpu.dc=0。

        2. 验驱动:装好后 rocm-smi 能看到显卡温度和功率就是成了。然后 llama.cpp 的ROCm后端直接用 -ngl 999 就能调用。

        刚入门X99调新卡是有点折腾的,但调通了这组合性价比很高!

        1 条回复 最后回复
        1
        • terryT 离线
          terryT 离线
          terry
          编写于 最后由 编辑
          #9

          9700也算是神卡了,你用服务器版的驱动是什么鬼,它原本就是专业计算卡,现在HIP驱动没统一?

          油管:https://www.youtube.com/@抡锤者

          B 1 条回复 最后回复
          0
          • terryT terry

            9700也算是神卡了,你用服务器版的驱动是什么鬼,它原本就是专业计算卡,现在HIP驱动没统一?

            B 离线
            B 离线
            Brian
            编写于 最后由 编辑
            #10

            @terry 说:

            9700也算是神卡了,你用服务器版的驱动是什么鬼,它原本就是专业计算卡,现在HIP驱动没统一?
            我比较幸运,装系统,装驱动都比较顺。
            32g显存感觉不够,是双9700还是搭配个N卡

            terryT 1 条回复 最后回复
            0
            • B Brian

              @terry 说:

              9700也算是神卡了,你用服务器版的驱动是什么鬼,它原本就是专业计算卡,现在HIP驱动没统一?
              我比较幸运,装系统,装驱动都比较顺。
              32g显存感觉不够,是双9700还是搭配个N卡

              terryT 离线
              terryT 离线
              terry
              编写于 最后由 编辑
              #11

              @Brian A卡如果买了一张就一条路走到黑,玩大模型32G双卡TP很强,视频的话9700页不错,但视频不能双卡。要想视频有提升,必须RTX Pro 4500以上的卡,那都是2万以上。4080S 32G就是魔改卡,提升不大,看你需求。

              油管:https://www.youtube.com/@抡锤者

              1 条回复 最后回复
              0
              • ping linP 离线
                ping linP 离线
                ping lin
                编写于 最后由 ping lin 编辑
                #12

                哦,其实我对linux还是小白,我一开始是装是ai推荐我用,22.04,然后各种花屏,再然后ai劝我装服务器版之后,再把图形装上,
                所以我想说的问题是:是要转24.04吗?还是继续22.04继续折腾。谢谢!!现在22.04驱动rocm也还没有装上。

                1 条回复 最后回复
                0
                • terryT 离线
                  terryT 离线
                  terry
                  编写于 最后由 编辑
                  #13

                  1, 22.04目前够用,2,24.04以后支持会更好。3,系统差异不大,你可以省事。

                  油管:https://www.youtube.com/@抡锤者

                  1 条回复 最后回复
                  0
                  • ping linP 离线
                    ping linP 离线
                    ping lin
                    编写于 最后由 编辑
                    #14

                    我最新报道 ,这是AI给我的总结.呼呼!!
                    好的,以下是这次从花屏到完美运行的全过程总结。


                    📋 失败心得

                    1. 旧系统硬撑新硬件 —— 走弯路

                    • 错误:最初在 Ubuntu 22.04 的 5.15 内核上尝试驱动 RX 9700(RDNA 4 架构)。
                    • 后果:内核太旧,根本不认识新显卡,amdgpu 初始化直接报 Fatal error during GPU init。
                    • 教训:新显卡必须配新内核。RDNA 4 需要 Linux 6.8+ 内核支持,硬在 5.15 上折腾纯属浪费时间。

                    2. 旧版 amdgpu-dkms 硬编译 —— 不兼容

                    • 错误:在 5.15 内核上安装的 amdgpu-dkms 6.7,升级到 6.8 内核后强行重新编译。
                    • 后果:API 接口变化导致编译报错 incompatible-pointer-types,模块构建失败。
                    • 教训:DKMS 模块和内核版本必须匹配。ROCm 6.x 的驱动是为 5.x 内核设计的,不能跨大版本强行编译。

                    3. 依赖过时的安装命令

                    • 错误:使用了旧的 amdgpu-install_6.3.60303-1_all.deb 下载链接。
                    • 后果:404 Not Found,无法下载。
                    • 教训:AMD 的安装包路径经常更新,用之前先去官网确认最新版本号。

                    4. 纠结于缺失的 amdkfd.ko

                    • 错误:反复查找独立的 amdkfd.ko 文件,认为缺少它 ROCm 就无法工作。
                    • 后果:浪费大量时间在编译、搜索模块上。
                    • 教训:新版 ROCm 已将 KFD 功能整合进 amdgpu 主模块,只要 /dev/kfd 设备存在就说明没问题,不必纠结独立文件。

                    5. 权限问题被忽略

                    • 错误:用户未加入 render 组,导致 rocminfo 报 Permission denied。
                    • 后果:误以为是驱动没装好,反复重装。
                    • 教训:安装完驱动后,第一时间把用户加入 render 和 video 组,并退出重登使权限生效。

                    ✅ 成功经验

                    1. 果断换 Ubuntu 24.04 Server

                    • 关键决策:放弃 22.04,直接全新安装 24.04。
                    • 原因:24.04 自带的 6.8 内核原生支持 RDNA 4 架构,省去所有内核升级的麻烦。

                    2. 用 nomodeset 安全安装

                    • 操作:安装时在 GRUB 的 linux 行末尾加 nomodeset。
                    • 效果:完全避开花屏,确保安装过程顺利。

                    3. 选对 ROCm 版本

                    • 操作:使用 amdgpu-install_7.1.1 脚本和 --usecase=rocm 参数。
                    • 效果:自动安装匹配 6.8 内核的 amdgpu-dkms 6.16.6,一次编译通过,无需手动干预。

                    4. 正确配置用户权限

                    • 操作:sudo usermod -a -G render,video $USER,然后退出重登。
                    • 效果:rocminfo 成功识别 GPU,PyTorch 调用正常。

                    5. 验证完整链路

                    • 操作:从 rocm-smi 到 rocminfo 到 torch.cuda.is_available(),逐级验证。
                    • 效果:每一步都确认硬件→驱动→框架的链路畅通,最终输出 True + AMD Radeon AI PRO R9700。

                    6. Server 版 + 后装桌面

                    • 策略:先装纯净 Server 搭好 ROCm 环境,再装桌面。
                    • 好处:底层稳定后再加图形界面,风险隔离,出问题也容易定位。

                    💎 终极总结一句话

                    新显卡配新系统,驱动权限一步到位,别在旧内核上死磕。

                    terryT 1 条回复 最后回复
                    1
                    • ping linP 离线
                      ping linP 离线
                      ping lin
                      编写于 最后由 编辑
                      #15

                      📋 你的 ROCm 安装实战总结
                      基于我们整个调试过程,帮你梳理踩过的坑和做对的事,下次重装/帮别人装时直接抄作业!
                      ❌ 失败经验(踩坑清单)
                      坑点
                      具体表现
                      根本原因
                      避免方法
                      🔹 没插网线装系统
                      Ubuntu/Windows 安装卡"连接网络"或跳过关键步骤
                      安装程序依赖网络下载驱动/更新
                      ✅ 装系统前先插好网线
                      🔹 BIOS 设置找错方向
                      在 Intel CPU 上找 AMD 的 SVM
                      混淆了 CPU 虚拟化技术(AMD=SVM, Intel=VT-d)
                      ✅ 先确认 CPU 品牌,Intel 找 VT-d,AMD 找 SVM
                      🔹 DKMS 驱动冲突
                      lsmod 无输出,amdkfd.ko 缺失
                      内核自带 amdgpu + DKMS 编译版互相覆盖
                      ✅ 优先用内核原生模块,或强制清理 DKMS 缓存
                      🔹 模块文件找不到
                      find ... -name "amdkfd.ko" 无输出
                      Ubuntu 模块是 .ko.xz 压缩格式
                      ✅ 用 find ... -name "amdkfd*" 或查 modinfo
                      🔹 驱动版本不匹配
                      ROCm 6.1.3 for 22.04 编译失败
                      旧驱动包 + 新内核(5.15+)API 变更
                      ✅ 系统版本 + 驱动版本 + 内核版本三者对齐
                      🔹 Secure Boot 干扰
                      模块编译成功但加载失败
                      未签名内核模块被阻止
                      ✅ 安装前确认 mokutil --sb-state 显示 disabled
                      🔹 盲目重装系统
                      多次覆盖安装浪费时间
                      没先确认是软件配置问题还是系统问题
                      ✅ 先排查驱动/内核/网络,最后再考虑重装
                      ✅ 成功经验(关键操作)
                      正确操作
                      为什么有效
                      可复用的技巧
                      🔸 BIOS 三件套
                      VT-d + Above 4G Decoding + Interrupt Remapping
                      让 IOMMU 正常工作,GPU 才能被正确映射
                      📌 所有 AMD 显卡 + 计算任务必开
                      🔸 GRUB 加 iommu=pt
                      启用 IOMMU 直通模式,减少虚拟化开销
                      📌 命令行永久生效:GRUB_CMDLINE_LINUX_DEFAULT="... iommu=pt"
                      🔸 换 Ubuntu 24.04 + 新内核
                      6.8+ 内核对新人显卡(RDNA4)支持更好
                      📌 新人显卡优先选最新 LTS + HWE 内核
                      🔸 装 linux-modules-extra
                      补全内核缺失的计算驱动模块
                      📌 每次升级内核后都执行一遍
                      🔸 用官方 5 步安装法
                      版本对齐 + 依赖完整 + 流程标准化
                      📌 复制粘贴官方文档命令,不魔改
                      🔸 覆盖安装而非升级
                      避免旧配置残留导致冲突
                      📌 调试失败 >2 次时,直接重装更省时间
                      🔸 分步验证 + 及时截图
                      快速定位卡在哪一步
                      📌 每执行 1-2 条命令就验证状态,报错立刻查
                      🎯 终极口诀(下次直接背)
                      1234567
                      💡 额外心得
                      "能 SSH 就别纠结图形界面":服务器场景下,桌面环境是可选的,不是必须的
                      "内核原生驱动 > DKMS 编译":如果内核自带模块,优先用原生的,更稳
                      "新硬件配新系统":RX 9700 这种新显卡,别在老内核上硬刚,直接上 24.04 + 6.8+ 内核
                      "保留回退方案":装桌面时用 multi-user.target 默认进命令行,需要时再 startx,灵活又稳
                      🚀 你现在的最优状态
                      12345
                      这已经是跑 AI 的黄金起点了! 🎯
                      下次再装,照着这个总结走,30 分钟内必成!💪

                      1 条回复 最后回复
                      0
                      • ping linP 离线
                        ping linP 离线
                        ping lin
                        编写于 最后由 编辑
                        #16

                        我感觉是我自己一开始就没有接网线的错...

                        1 条回复 最后回复
                        0
                        • jenaflexJ 离线
                          jenaflexJ 离线
                          jenaflex
                          编写于 最后由 编辑
                          #17

                          上面总结的乱七八糟的,饶了很多弯路。

                          重点应该是:

                          • Ubuntu24.04 升级Linux Kernel 到 6.17的最新 (Linux是Kernel自带驱动的,升级到Ubuntu版本对应的最新Kernel就行了,除了N卡需要额外装驱动以外),推荐小白用Linux Mint22.3(等效Ubuntu24.04,UI操作习惯接近Windows)
                          • 升级Linux-firmware 到最新
                          • 安装ROCm 7.2.3 & Toolchain
                          • 编译适用gfx1201(R9700)的llama.cpp
                          • 偶尔有特殊情况需要在Grub加启动选项

                          “启用 IOMMU 直通模式,减少虚拟化开销” 这什么乱七八糟的,你又不是把显卡直通给虚拟机。
                          你可以在BIOS里开这些选项,但和你的问题没有因果关系。

                          ping linP 1 条回复 最后回复
                          0
                          • ping linP ping lin

                            我最新报道 ,这是AI给我的总结.呼呼!!
                            好的,以下是这次从花屏到完美运行的全过程总结。


                            📋 失败心得

                            1. 旧系统硬撑新硬件 —— 走弯路

                            • 错误:最初在 Ubuntu 22.04 的 5.15 内核上尝试驱动 RX 9700(RDNA 4 架构)。
                            • 后果:内核太旧,根本不认识新显卡,amdgpu 初始化直接报 Fatal error during GPU init。
                            • 教训:新显卡必须配新内核。RDNA 4 需要 Linux 6.8+ 内核支持,硬在 5.15 上折腾纯属浪费时间。

                            2. 旧版 amdgpu-dkms 硬编译 —— 不兼容

                            • 错误:在 5.15 内核上安装的 amdgpu-dkms 6.7,升级到 6.8 内核后强行重新编译。
                            • 后果:API 接口变化导致编译报错 incompatible-pointer-types,模块构建失败。
                            • 教训:DKMS 模块和内核版本必须匹配。ROCm 6.x 的驱动是为 5.x 内核设计的,不能跨大版本强行编译。

                            3. 依赖过时的安装命令

                            • 错误:使用了旧的 amdgpu-install_6.3.60303-1_all.deb 下载链接。
                            • 后果:404 Not Found,无法下载。
                            • 教训:AMD 的安装包路径经常更新,用之前先去官网确认最新版本号。

                            4. 纠结于缺失的 amdkfd.ko

                            • 错误:反复查找独立的 amdkfd.ko 文件,认为缺少它 ROCm 就无法工作。
                            • 后果:浪费大量时间在编译、搜索模块上。
                            • 教训:新版 ROCm 已将 KFD 功能整合进 amdgpu 主模块,只要 /dev/kfd 设备存在就说明没问题,不必纠结独立文件。

                            5. 权限问题被忽略

                            • 错误:用户未加入 render 组,导致 rocminfo 报 Permission denied。
                            • 后果:误以为是驱动没装好,反复重装。
                            • 教训:安装完驱动后,第一时间把用户加入 render 和 video 组,并退出重登使权限生效。

                            ✅ 成功经验

                            1. 果断换 Ubuntu 24.04 Server

                            • 关键决策:放弃 22.04,直接全新安装 24.04。
                            • 原因:24.04 自带的 6.8 内核原生支持 RDNA 4 架构,省去所有内核升级的麻烦。

                            2. 用 nomodeset 安全安装

                            • 操作:安装时在 GRUB 的 linux 行末尾加 nomodeset。
                            • 效果:完全避开花屏,确保安装过程顺利。

                            3. 选对 ROCm 版本

                            • 操作:使用 amdgpu-install_7.1.1 脚本和 --usecase=rocm 参数。
                            • 效果:自动安装匹配 6.8 内核的 amdgpu-dkms 6.16.6,一次编译通过,无需手动干预。

                            4. 正确配置用户权限

                            • 操作:sudo usermod -a -G render,video $USER,然后退出重登。
                            • 效果:rocminfo 成功识别 GPU,PyTorch 调用正常。

                            5. 验证完整链路

                            • 操作:从 rocm-smi 到 rocminfo 到 torch.cuda.is_available(),逐级验证。
                            • 效果:每一步都确认硬件→驱动→框架的链路畅通,最终输出 True + AMD Radeon AI PRO R9700。

                            6. Server 版 + 后装桌面

                            • 策略:先装纯净 Server 搭好 ROCm 环境,再装桌面。
                            • 好处:底层稳定后再加图形界面,风险隔离,出问题也容易定位。

                            💎 终极总结一句话

                            新显卡配新系统,驱动权限一步到位,别在旧内核上死磕。

                            terryT 离线
                            terryT 离线
                            terry
                            编写于 最后由 编辑
                            #18

                            @ping-lin 你重发个帖子,R9700实践贴,我给你置顶,要配截图,照片也行。

                            油管:https://www.youtube.com/@抡锤者

                            jenaflexJ 1 条回复 最后回复
                            0
                            • jenaflexJ jenaflex

                              上面总结的乱七八糟的,饶了很多弯路。

                              重点应该是:

                              • Ubuntu24.04 升级Linux Kernel 到 6.17的最新 (Linux是Kernel自带驱动的,升级到Ubuntu版本对应的最新Kernel就行了,除了N卡需要额外装驱动以外),推荐小白用Linux Mint22.3(等效Ubuntu24.04,UI操作习惯接近Windows)
                              • 升级Linux-firmware 到最新
                              • 安装ROCm 7.2.3 & Toolchain
                              • 编译适用gfx1201(R9700)的llama.cpp
                              • 偶尔有特殊情况需要在Grub加启动选项

                              “启用 IOMMU 直通模式,减少虚拟化开销” 这什么乱七八糟的,你又不是把显卡直通给虚拟机。
                              你可以在BIOS里开这些选项,但和你的问题没有因果关系。

                              ping linP 离线
                              ping linP 离线
                              ping lin
                              编写于 最后由 编辑
                              #19

                              @jenaflex 其实我是小白,我都是一步一步跟着ai做的,chatpgt帮我带歪了,说是我的显卡有问题,内存有问题,更种硬件检测,毕竟咱们这个硬件配置在ai眼里就比较非传统..然后chatpgt叫我换cpu换内存....
                              然后我问qwen也叫我在22.04里面不停的折腾,后面是deepseek救了我..
                              不过qwen的起码让我跑起了server版本,让我的脆弱的内心又自信了起来..我就把chatgpt扔到一边去了.
                              最后的最后是deepseek救了我..我现在是把这主机当做服务器,在自己的笔记上连接运行他..

                              现在是我这小白实践各种模型的安装和调试了..这个我又要学习了.实在是哥们,我什么都不懂啊..抱歉啊!!

                              jenaflexJ 1 条回复 最后回复
                              0
                              • ping linP ping lin

                                @jenaflex 其实我是小白,我都是一步一步跟着ai做的,chatpgt帮我带歪了,说是我的显卡有问题,内存有问题,更种硬件检测,毕竟咱们这个硬件配置在ai眼里就比较非传统..然后chatpgt叫我换cpu换内存....
                                然后我问qwen也叫我在22.04里面不停的折腾,后面是deepseek救了我..
                                不过qwen的起码让我跑起了server版本,让我的脆弱的内心又自信了起来..我就把chatgpt扔到一边去了.
                                最后的最后是deepseek救了我..我现在是把这主机当做服务器,在自己的笔记上连接运行他..

                                现在是我这小白实践各种模型的安装和调试了..这个我又要学习了.实在是哥们,我什么都不懂啊..抱歉啊!!

                                jenaflexJ 离线
                                jenaflexJ 离线
                                jenaflex
                                编写于 最后由 编辑
                                #20

                                @ping-lin
                                那你也别大段大段的把 AI总结的不对的东西都贴上来啊

                                我这之前不是有作业可以抄嘛,然后你把这些步骤不懂的部分,再让AI给你解答。

                                https://lcz.me/topic/67/申请精华帖-秀一下刚到的r9700-以及初步配置llama.cpp

                                AI是,你问的方向不对,它完全有可能给你越带越偏。
                                所以你可以先抄一个已经成功的作业,大致方向是可行的,然后让AI帮你解决你硬件和软件匹配和我这个不一样的地方。

                                你可以让AI读我这个帖子,然后找出硬件配置和你不同的地方,然后让AI重新给你生成一套方案。

                                另外免费版ChatGPT很拉,我都用付费版Gemini或者DeepSeek免费版

                                1 条回复 最后回复
                                0
                                • ping linP 离线
                                  ping linP 离线
                                  ping lin
                                  编写于 最后由 编辑
                                  #21

                                  大哥我已经好了..我现在下一步是要向您学习如何安装和使用llama.cpp

                                  1 条回复 最后回复
                                  0
                                  • terryT terry

                                    @ping-lin 你重发个帖子,R9700实践贴,我给你置顶,要配截图,照片也行。

                                    jenaflexJ 离线
                                    jenaflexJ 离线
                                    jenaflex
                                    编写于 最后由 编辑
                                    #22

                                    @terry
                                    他刚又发了个AI总结的洋洋洒洒的文章。
                                    特么还是误导其他人用 Linux 6.8内核+Rcom 7.1.1,真是无语了。

                                    1 条回复 最后回复
                                    0
                                    • ping linP 离线
                                      ping linP 离线
                                      ping lin
                                      编写于 最后由 编辑
                                      #23

                                      其实我啥也不会,我要不要把贴子给删了先??

                                      terryT 1 条回复 最后回复
                                      0
                                      • ping linP ping lin

                                        其实我啥也不会,我要不要把贴子给删了先??

                                        terryT 离线
                                        terryT 离线
                                        terry
                                        编写于 最后由 编辑
                                        #24

                                        @ping-lin 别乱发,下不为例。

                                        油管:https://www.youtube.com/@抡锤者

                                        1 条回复 最后回复
                                        0
                                        • ping linP 离线
                                          ping linP 离线
                                          ping lin
                                          编写于 最后由 编辑
                                          #25

                                          好的,我会虚心接受的..

                                          1 条回复 最后回复
                                          0

                                          你好!看起来您对这段对话很感兴趣,但您还没有一个账号。

                                          厌倦了每次访问都刷到同样的帖子?您注册账号后,您每次返回时都能精准定位到您上次浏览的位置,并可选择接收新回复通知(通过邮件或推送通知)。您还能收藏书签、为帖子顶,向社区成员表达您的欣赏。

                                          有了你的建议,这篇帖子会更精彩哦 💗

                                          注册 登录
                                          回复
                                          • 在新帖中回复
                                          登录后回复
                                          • 从旧到新
                                          • 从新到旧
                                          • 最多赞同


                                          • 登录

                                          • 没有帐号? 注册

                                          • 登录或注册以进行搜索。
                                          • 第一个帖子
                                            最后一个帖子
                                          0
                                          • 版块
                                          • 最新
                                          • 标签
                                          • 热门
                                          • 用户
                                          • 群组