跳转至内容
  • 版块
  • 最新
  • 标签
  • 热门
  • 用户
  • 群组
皮肤
  • 浅色
  • Brite
  • Cerulean
  • Cosmo
  • Flatly
  • Journal
  • Litera
  • Lumen
  • Lux
  • Materia
  • Minty
  • Morph
  • Pulse
  • Sandstone
  • Simplex
  • Sketchy
  • Spacelab
  • United
  • Yeti
  • Zephyr
  • 深色
  • Cyborg
  • Darkly
  • Quartz
  • Slate
  • Solar
  • Superhero
  • Vapor

  • 默认(不使用皮肤)
  • 不使用皮肤
折叠
品牌标识

抡锤者

  1. 主页
  2. AI硬件
  3. 自已的装机心得,AMD AI PRO R9700

自已的装机心得,AMD AI PRO R9700

已定时 已固定 已锁定 已移动 AI硬件
amdr9700
25 帖子 7 发布者 345 浏览
  • 从旧到新
  • 从新到旧
  • 最多赞同
回复
  • 在新帖中回复
登录后回复
此主题已被删除。只有拥有主题管理权限的用户可以查看。
  • ping linP 离线
    ping linP 离线
    ping lin
    编写于 最后由 编辑
    #16

    我感觉是我自己一开始就没有接网线的错...

    1 条回复 最后回复
    0
    • jenaflexJ 离线
      jenaflexJ 离线
      jenaflex
      编写于 最后由 编辑
      #17

      上面总结的乱七八糟的,饶了很多弯路。

      重点应该是:

      • Ubuntu24.04 升级Linux Kernel 到 6.17的最新 (Linux是Kernel自带驱动的,升级到Ubuntu版本对应的最新Kernel就行了,除了N卡需要额外装驱动以外),推荐小白用Linux Mint22.3(等效Ubuntu24.04,UI操作习惯接近Windows)
      • 升级Linux-firmware 到最新
      • 安装ROCm 7.2.3 & Toolchain
      • 编译适用gfx1201(R9700)的llama.cpp
      • 偶尔有特殊情况需要在Grub加启动选项

      “启用 IOMMU 直通模式,减少虚拟化开销” 这什么乱七八糟的,你又不是把显卡直通给虚拟机。
      你可以在BIOS里开这些选项,但和你的问题没有因果关系。

      ping linP 1 条回复 最后回复
      0
      • ping linP ping lin

        我最新报道 ,这是AI给我的总结.呼呼!!
        好的,以下是这次从花屏到完美运行的全过程总结。


        📋 失败心得

        1. 旧系统硬撑新硬件 —— 走弯路

        • 错误:最初在 Ubuntu 22.04 的 5.15 内核上尝试驱动 RX 9700(RDNA 4 架构)。
        • 后果:内核太旧,根本不认识新显卡,amdgpu 初始化直接报 Fatal error during GPU init。
        • 教训:新显卡必须配新内核。RDNA 4 需要 Linux 6.8+ 内核支持,硬在 5.15 上折腾纯属浪费时间。

        2. 旧版 amdgpu-dkms 硬编译 —— 不兼容

        • 错误:在 5.15 内核上安装的 amdgpu-dkms 6.7,升级到 6.8 内核后强行重新编译。
        • 后果:API 接口变化导致编译报错 incompatible-pointer-types,模块构建失败。
        • 教训:DKMS 模块和内核版本必须匹配。ROCm 6.x 的驱动是为 5.x 内核设计的,不能跨大版本强行编译。

        3. 依赖过时的安装命令

        • 错误:使用了旧的 amdgpu-install_6.3.60303-1_all.deb 下载链接。
        • 后果:404 Not Found,无法下载。
        • 教训:AMD 的安装包路径经常更新,用之前先去官网确认最新版本号。

        4. 纠结于缺失的 amdkfd.ko

        • 错误:反复查找独立的 amdkfd.ko 文件,认为缺少它 ROCm 就无法工作。
        • 后果:浪费大量时间在编译、搜索模块上。
        • 教训:新版 ROCm 已将 KFD 功能整合进 amdgpu 主模块,只要 /dev/kfd 设备存在就说明没问题,不必纠结独立文件。

        5. 权限问题被忽略

        • 错误:用户未加入 render 组,导致 rocminfo 报 Permission denied。
        • 后果:误以为是驱动没装好,反复重装。
        • 教训:安装完驱动后,第一时间把用户加入 render 和 video 组,并退出重登使权限生效。

        ✅ 成功经验

        1. 果断换 Ubuntu 24.04 Server

        • 关键决策:放弃 22.04,直接全新安装 24.04。
        • 原因:24.04 自带的 6.8 内核原生支持 RDNA 4 架构,省去所有内核升级的麻烦。

        2. 用 nomodeset 安全安装

        • 操作:安装时在 GRUB 的 linux 行末尾加 nomodeset。
        • 效果:完全避开花屏,确保安装过程顺利。

        3. 选对 ROCm 版本

        • 操作:使用 amdgpu-install_7.1.1 脚本和 --usecase=rocm 参数。
        • 效果:自动安装匹配 6.8 内核的 amdgpu-dkms 6.16.6,一次编译通过,无需手动干预。

        4. 正确配置用户权限

        • 操作:sudo usermod -a -G render,video $USER,然后退出重登。
        • 效果:rocminfo 成功识别 GPU,PyTorch 调用正常。

        5. 验证完整链路

        • 操作:从 rocm-smi 到 rocminfo 到 torch.cuda.is_available(),逐级验证。
        • 效果:每一步都确认硬件→驱动→框架的链路畅通,最终输出 True + AMD Radeon AI PRO R9700。

        6. Server 版 + 后装桌面

        • 策略:先装纯净 Server 搭好 ROCm 环境,再装桌面。
        • 好处:底层稳定后再加图形界面,风险隔离,出问题也容易定位。

        💎 终极总结一句话

        新显卡配新系统,驱动权限一步到位,别在旧内核上死磕。

        terryT 离线
        terryT 离线
        terry
        编写于 最后由 编辑
        #18

        @ping-lin 你重发个帖子,R9700实践贴,我给你置顶,要配截图,照片也行。

        油管:https://www.youtube.com/@抡锤者

        jenaflexJ 1 条回复 最后回复
        0
        • jenaflexJ jenaflex

          上面总结的乱七八糟的,饶了很多弯路。

          重点应该是:

          • Ubuntu24.04 升级Linux Kernel 到 6.17的最新 (Linux是Kernel自带驱动的,升级到Ubuntu版本对应的最新Kernel就行了,除了N卡需要额外装驱动以外),推荐小白用Linux Mint22.3(等效Ubuntu24.04,UI操作习惯接近Windows)
          • 升级Linux-firmware 到最新
          • 安装ROCm 7.2.3 & Toolchain
          • 编译适用gfx1201(R9700)的llama.cpp
          • 偶尔有特殊情况需要在Grub加启动选项

          “启用 IOMMU 直通模式,减少虚拟化开销” 这什么乱七八糟的,你又不是把显卡直通给虚拟机。
          你可以在BIOS里开这些选项,但和你的问题没有因果关系。

          ping linP 离线
          ping linP 离线
          ping lin
          编写于 最后由 编辑
          #19

          @jenaflex 其实我是小白,我都是一步一步跟着ai做的,chatpgt帮我带歪了,说是我的显卡有问题,内存有问题,更种硬件检测,毕竟咱们这个硬件配置在ai眼里就比较非传统..然后chatpgt叫我换cpu换内存....
          然后我问qwen也叫我在22.04里面不停的折腾,后面是deepseek救了我..
          不过qwen的起码让我跑起了server版本,让我的脆弱的内心又自信了起来..我就把chatgpt扔到一边去了.
          最后的最后是deepseek救了我..我现在是把这主机当做服务器,在自己的笔记上连接运行他..

          现在是我这小白实践各种模型的安装和调试了..这个我又要学习了.实在是哥们,我什么都不懂啊..抱歉啊!!

          jenaflexJ 1 条回复 最后回复
          0
          • ping linP ping lin

            @jenaflex 其实我是小白,我都是一步一步跟着ai做的,chatpgt帮我带歪了,说是我的显卡有问题,内存有问题,更种硬件检测,毕竟咱们这个硬件配置在ai眼里就比较非传统..然后chatpgt叫我换cpu换内存....
            然后我问qwen也叫我在22.04里面不停的折腾,后面是deepseek救了我..
            不过qwen的起码让我跑起了server版本,让我的脆弱的内心又自信了起来..我就把chatgpt扔到一边去了.
            最后的最后是deepseek救了我..我现在是把这主机当做服务器,在自己的笔记上连接运行他..

            现在是我这小白实践各种模型的安装和调试了..这个我又要学习了.实在是哥们,我什么都不懂啊..抱歉啊!!

            jenaflexJ 离线
            jenaflexJ 离线
            jenaflex
            编写于 最后由 编辑
            #20

            @ping-lin
            那你也别大段大段的把 AI总结的不对的东西都贴上来啊

            我这之前不是有作业可以抄嘛,然后你把这些步骤不懂的部分,再让AI给你解答。

            https://lcz.me/topic/67/申请精华帖-秀一下刚到的r9700-以及初步配置llama.cpp

            AI是,你问的方向不对,它完全有可能给你越带越偏。
            所以你可以先抄一个已经成功的作业,大致方向是可行的,然后让AI帮你解决你硬件和软件匹配和我这个不一样的地方。

            你可以让AI读我这个帖子,然后找出硬件配置和你不同的地方,然后让AI重新给你生成一套方案。

            另外免费版ChatGPT很拉,我都用付费版Gemini或者DeepSeek免费版

            1 条回复 最后回复
            0
            • ping linP 离线
              ping linP 离线
              ping lin
              编写于 最后由 编辑
              #21

              大哥我已经好了..我现在下一步是要向您学习如何安装和使用llama.cpp

              1 条回复 最后回复
              0
              • terryT terry

                @ping-lin 你重发个帖子,R9700实践贴,我给你置顶,要配截图,照片也行。

                jenaflexJ 离线
                jenaflexJ 离线
                jenaflex
                编写于 最后由 编辑
                #22

                @terry
                他刚又发了个AI总结的洋洋洒洒的文章。
                特么还是误导其他人用 Linux 6.8内核+Rcom 7.1.1,真是无语了。

                1 条回复 最后回复
                0
                • ping linP 离线
                  ping linP 离线
                  ping lin
                  编写于 最后由 编辑
                  #23

                  其实我啥也不会,我要不要把贴子给删了先??

                  terryT 1 条回复 最后回复
                  0
                  • ping linP ping lin

                    其实我啥也不会,我要不要把贴子给删了先??

                    terryT 离线
                    terryT 离线
                    terry
                    编写于 最后由 编辑
                    #24

                    @ping-lin 别乱发,下不为例。

                    油管:https://www.youtube.com/@抡锤者

                    1 条回复 最后回复
                    0
                    • ping linP 离线
                      ping linP 离线
                      ping lin
                      编写于 最后由 编辑
                      #25

                      好的,我会虚心接受的..

                      1 条回复 最后回复
                      0

                      你好!看起来您对这段对话很感兴趣,但您还没有一个账号。

                      厌倦了每次访问都刷到同样的帖子?您注册账号后,您每次返回时都能精准定位到您上次浏览的位置,并可选择接收新回复通知(通过邮件或推送通知)。您还能收藏书签、为帖子顶,向社区成员表达您的欣赏。

                      有了你的建议,这篇帖子会更精彩哦 💗

                      注册 登录
                      回复
                      • 在新帖中回复
                      登录后回复
                      • 从旧到新
                      • 从新到旧
                      • 最多赞同


                      • 登录

                      • 没有帐号? 注册

                      • 登录或注册以进行搜索。
                      • 第一个帖子
                        最后一个帖子
                      0
                      • 版块
                      • 最新
                      • 标签
                      • 热门
                      • 用户
                      • 群组