跳转至内容
  • 版块
  • 最新
  • 标签
  • 热门
  • 用户
  • 群组
皮肤
  • 浅色
  • Brite
  • Cerulean
  • Cosmo
  • Flatly
  • Journal
  • Litera
  • Lumen
  • Lux
  • Materia
  • Minty
  • Morph
  • Pulse
  • Sandstone
  • Simplex
  • Sketchy
  • Spacelab
  • United
  • Yeti
  • Zephyr
  • 深色
  • Cyborg
  • Darkly
  • Quartz
  • Slate
  • Solar
  • Superhero
  • Vapor

  • 默认(不使用皮肤)
  • 不使用皮肤
折叠
品牌标识

抡锤者

CS6C

CS6

@CS6
关于
帖子
41
主题
3
分享
0
群组
0
粉丝
0
关注
1

帖子

最新 最佳 有争议的

  • 3D模型生成 trellis2 - r9700 rocm
    CS6C CS6

    R9700 跑 TRELLIS.2 ROCm:先把能跑的路徑整理出來

    這份工具箱不是要把 TRELLIS.2 重新包成一個完整產品。比較實際的目標是:在 AMD Radeon AI PRO R9700 這張卡上,先整理出一條可以重現的 image-to-3D 測試流程。

    R9700 的硬體規格看起來很適合做本地 AI Lab,但 ROCm、RDNA4、3D 生成模型這幾個東西湊在一起,細節其實不少。官方或社群專案通常會先以 NVIDIA / CUDA 當主要路徑,AMD 這邊常常要自己補一段。

    為什麼要另外整理一包

    我測的是 TRELLIS.2 的 ROCm fork 。模型本身可以跑,問題主要卡在高品質輸出時的貼圖與 mesh 後處理。

    原本的 textured GLB export 會走 GPU BVH 路徑,其中有一段 cumesh.cuBVH.unsigned_distance()。在 R9700 / gfx1201 的 ROCm 環境下,這段有機會讓 HIP 進入 illegal state。不是模型完全不能跑,而是輸出流程跑到這裡會炸。

    所以這個 repo 做了兩件事:

    • 固定一個可以重現的 ROCm 容器環境
    • 把貼圖投影改成 CPU KDTree fallback,避開目前不穩的 GPU BVH 路徑

    這不是最快的做法,但至少可以把 textured GLB 生出來。

    目前可用的路徑

    目前測過比較穩的設定是:

    texture_size=4096
    decimation_target=1000000
    remesh=False
    OVOXEL_PROJECTION_MODE=cpu_kdtree
    OVOXEL_CPU_KDTREE_K=8
    

    remesh=False 是刻意的。原本 remesh=True 看起來比較漂亮,但它還是會碰到同一條 GPU BVH distance path。只要那段 native ROCm extension 還沒修好,高品質設定就不能只看參數名稱,還要看它底下實際呼叫了什麼。

    測試紀錄:robot 4096 版

    這次測試用 4096 texture 設定,目標是先確認高解析貼圖能不能穩定完成,而不是追求最快速度。

    設定如下:

    texture_size=4096
    decimation_target=1000000
    remesh=False
    OVOXEL_PROJECTION_MODE=cpu_kdtree
    OVOXEL_CPU_KDTREE_K=8
    

    輸出結果:

    GLB size: 約 41MB
    final mesh: 823,375 vertices / 954,302 faces
    valid texture pixels: 8,331,054
    CPU projection mean distance: 3.255e-05
    CPU projection max distance: 0.003561
    GLB check: materials=1, textures=2, images=2, baseColorTexture exists
    

    這次 robot 4096 版大約花了 6 分 50 秒。

    時間拆開看:

    階段 時間 備註
    啟動 / 載入 pipeline 約 1 分鐘多 第一次啟動會花時間載入模型與 pipeline
    模型生成 / sampling / decode 約 2 分 50 秒 從開始跑圖到 to_glb 開始前
    GLB 匯出總時間 約 2 分 49 秒 22:23:22 開始 to_glb,22:26:11 完成
    4096 texture baking + CPU projection 約 2 分 35 秒 4096 貼圖解析度下最重的一段
    CPU KDTree projection 本身 約 2 分 23 秒 22:23:36 開始,22:25:59 完成

    最耗時的是這段:

    CPU KDTree projection: querying 8,331,054 points
    

    它要處理 833 萬個 texture points。換句話說,4096 貼圖解析度主要就是卡在這裡。CPU KDTree fallback 可以避開 ROCm GPU BVH 的問題,但代價就是 texture baking 會變成 CPU 工作。

    使用方式

    先 build 容器:

    podman build -t localhost/r9700-trellis2-rocm-toolbox:latest .
    

    模型不要放進 repo,也不要打進 image。建議把模型目錄掛到 /models:

    MODEL_ROOT=$HOME/ai-models \
    WORK_ROOT=$PWD/work \
    scripts/run-container.sh
    

    進容器後跑輸出:

    cd /workspace/TRELLIS.2_rocm
    source /workspace/.venv/bin/activate
    
    export OVOXEL_PROJECTION_MODE=cpu_kdtree
    export OVOXEL_CPU_KDTREE_K=8
    export HF_HOME=/models/huggingface
    export HUGGINGFACE_HUB_CACHE=/models/huggingface/hub
    export XDG_CACHE_HOME=/models/cache
    
    python /opt/r9700-trellis2/scripts/run-textured-export.py \
      --input /workspace/TRELLIS.2_rocm/assets/example_image/T.png \
      --output /workspace/work/sample-4096.glb \
      --texture-size 4096 \
      --decimation-target 1000000
    

    這包適合誰

    如果你只是想要最省事地跑 3D 生成,NVIDIA 環境目前還是比較少坑。

    但如果你手上已經有 R9700,或是想測 AMD AI 生態,這包可以省掉一些重複踩坑的時間。

    後續想補的東西

    • 把 Web UI 的流程也整理成可重現版本
    • 補一份 build 時間與生成時間紀錄
    • 測不同 texture_size 對品質與時間的影響
    • 等 ROCm / native extension 更新後,再回頭測 remesh=True

    https://github.com/CS6/r9700-trellis2-rocm-toolbox

    3e68a05a-dda8-4606-8660-52ad145c2782-image.jpeg

    AI音视频画图

  • 論 迷你電腦 配合 RTX Pro 4500 的簡單測試, 以及Blackwell架構下的一些嘗試
    CS6C CS6

    @566656661 可以許願 https://microsoft.github.io/TRELLIS.2/ 測試嗎?
    剛剛跑 ROCm版堪用,但踩雷不少,等下也丟上來
    https://lcz.me/post/5275

    AI硬件

  • 論 迷你電腦 配合 RTX Pro 4500 的簡單測試, 以及Blackwell架構下的一些嘗試
    CS6C CS6

    @566656661 5090D 能送去華強北魔改嗎?

    AI硬件

  • 論 迷你電腦 配合 RTX Pro 4500 的簡單測試, 以及Blackwell架構下的一些嘗試
    CS6C CS6

    @rolex-lo 我是一開始就打算雙卡,挑的主板支援 PCIe 5.0 x8 兩個...
    你還是考慮單卡吧,不要重複消費

    我這次已經浪費錢多賣了一組 DDR5 32*2 ram ,成本暴增

    AI硬件

  • 論 迷你電腦 配合 RTX Pro 4500 的簡單測試, 以及Blackwell架構下的一些嘗試
    CS6C CS6

    感謝,我太久沒關注 N卡,還停留在舊價格

    AI硬件

  • 論 迷你電腦 配合 RTX Pro 4500 的簡單測試, 以及Blackwell架構下的一些嘗試
    CS6C CS6

    @566656661 我記得你好像有張 5090 ,PRO 4500 價位也差不多,你有比較過差異跟 CP 值嗎?

    AI硬件

  • 論 迷你電腦 配合 RTX Pro 4500 的簡單測試, 以及Blackwell架構下的一些嘗試
    CS6C CS6

    @566656661 單卡25萬左右還是太硬了,我的微薄月薪還要先扣 ai 税,除非有額外的收入可以回本,我目前已經有一張 R9700 可以玩,目前是在考慮第二張可以選 R9700 或是 B70 或是捏一下上 Pro 4500

    AI硬件

  • 論 迷你電腦 配合 RTX Pro 4500 的簡單測試, 以及Blackwell架構下的一些嘗試
    CS6C CS6

    你讓我對 4500 心動了

    AI硬件

  • 跑 COFYUI 問題
    CS6C CS6

    @sirwang 了解,下週上工我來試試看,剛好公司有個部署工單可以玩一下,但我們之前都是手動切分實體卡分派任務,是有在想嘗試搞類似 Runpod.io 的架構,
    AMD 卡我就不確定了,只知道雙卡跑同一個模型的做法,第二張卡還沒到,到時研究下

    AI音视频画图

  • 跑 COFYUI 問題
    CS6C CS6

    @sirwang @ppk 需要 PRO 6000 那種高階卡才能單卡分割喔....
    多卡只要分配就好

    AI音视频画图

  • 大家顯卡的使用情境都是啥? 又是怎麼計劃回本的?
    CS6C CS6

    如題,分享下各自的方案 / 用途吧?

    我是當作 home lab 使用,目前沒有盈利點,純當作學習成本 & sideproject 生圖工具
    AMD R97000 32G 單卡

    随便聊聊

  • R9700 Proxmox VE 懶人部署兩週運行心得
    CS6C CS6

    CS6 说:

    成本大概台幣 13萬上下....

    @nano 今天剛買 96G ram ... 增加4萬,

    AI硬件

  • RTX PRO6000 现货价格 10w,该不该卖,换 3 张 r9700
    CS6C CS6

    @Dalu-Fama 你是個人用沒差,如果是開服務給人還是 PRO6000 吧,R9700 在影片工作流一定是比不上 PRO6000省事,你的主機板/電源能也要換,真要賣不如全換

    AI硬件

  • 新手入坑 R9700 真的行嗎?
    CS6C CS6

    @rolex-lo 你的 底座PCI 5.0 是 x16還是 x8 ?
    R9700 跟高階 N卡電源接頭不同喔!

    AI硬件

  • 新手入坑 R9700 真的行嗎?
    CS6C CS6

    @566656661 我也很期待,也許我們可以來測同一個指標?

    AI硬件

  • 跑 COFYUI 問題
    CS6C CS6

    @ppk 那我很推 PVE ,在設定顯卡直通上面有很多不錯的方案

    AI音视频画图

  • 新手入坑 R9700 真的行嗎?
    CS6C CS6

    @rolex-lo
    我是 opencode 搭配 liteLLM 跑 gamma4 / Qwne 3.6 3.7
    主力是 codex max + claude code max 200 ,我的工作是移動端全棧開發+LLM devops
    我平常常會把大量的裝置端 log直接喂進去做分析,也會讓AI直接去做E2E測試
    還有配合 BDD 做 測試與開發

    AI硬件

  • 对 M5 MAX 跑本地大模型有点失望
    CS6C CS6

    @Tony-Wang 台幣 $245,000 這價格也是很難回本 😰
    要捏一下薪水

    AI硬件

  • 新手入坑 R9700 真的行嗎?
    CS6C CS6

    @rolex-lo coding 你還是訂 codex 或是 claude code 吧! 沒比較貴,目前我 R9700 單卡 coding 體驗很糟

    AI硬件

  • 对 M5 MAX 跑本地大模型有点失望
    CS6C CS6

    @tony-wang N卡除了 5090 / pro 6000 外還有窮人選擇嗎?

    AI硬件
  • 登录

  • 没有帐号? 注册

  • 登录或注册以进行搜索。
  • 第一个帖子
    最后一个帖子
0
  • 版块
  • 最新
  • 标签
  • 热门
  • 用户
  • 群组