R9700 Proxmox VE 懶人部署兩週運行心得

CS6

@laobenxiong 在容器裡面跑Windows最怕的問題還是遇到遊戲有反作弊系統不支援，把你當盜版抓.....

jenaflex

好贴，和我想法一致。我也是R9700，也是正想把R9700直通给Proxmox的虚拟机使用，这样方便快照，和维持几个不同的测试环境。
最近太忙，还没来得及搞。

其实很想知道 baremetal（也就是不搞虚拟机的用法）和proxmox直通，有没有性能损失。
以前我测过打游戏和blender渲染，大约5%左右的损失。

laobenxiong

@CS6 哦哦, 学习了. 没打过游戏...

jian

哈哈，志同道合，我也是这样的配置方式，很用心很详细的帖子。

CS6

@jenaflex 我還沒有認真測過，但我覺得還好？因為打遊戲的話需要有GPU io輸出，但單純做推理運算沒有這一層的損耗差異可能不會這麼大？
如果走qemu VGA 那可能就不只5%的損失，我有一台 linux 的容器是用來遊戲的，雖然用來對照的Windows 沒有走虛擬化不太一樣，但體感有差，找時間可能能用一樣的條件測一下

kos or

謝謝CS大分享, 先收藏了; 等硬體到了再幫我家人配置一個專屬AI服務設施;
這坑越搞越大還真的會變成小型Home Lab
星際公民好玩嗎？廣告打得很兇 (現在我有好用的顯卡了或許可以跑得動 )

CS6

@kos-or 星際公民好玩，但bug 跟未來的大餅還是不少，目前6~7月外星週應該有免費週可以試試看

williamlouis

这个隔离比 docker 更硬核。但是我还是建议 docker 就够用。生产力的话不建议这么搞。

CS6

@williamlouis 说:

这个隔离比 docker 更硬核。但是我还是建议 docker 就够用。生产力的话不建议这么搞。

我環境還是走 docker / podman 啊？要上 k8s /k3s 也可以的，隔离可能不是方案的重點
之所以用 PVE 當 host 是好管理設備資源/網路跟做VM備援，
生產力更建議這樣走才能應付意外發生，平時只需要維護好設定檔，新手還可以讓 ai 輕鬆讀取配置給予建議，
必要時可以短時間拉起新的服務上線，尤其作業系統更新導致的故障快速回滾穩定版本尤其重要。
如果你直接配置 linux / win server 還是逃不掉重新配置環境/驅動的問題。
當然如果你是 Terraform 用戶當我沒說XD

nano

哥，全套下来多小钱？

CS6 · 7.0.0-15-generic

CS6 说:

成本大概台幣 13萬上下....

@nano 今天剛買 96G ram ... 增加4萬，

fcme

@AGI 说:

proxmox能用？我以为效果一般呢。我专门找出来个闲置的sata ssd，安装的Ubuntu，如果可用，我就用回我的proxmox了。

PVE对于Homelab来说基本是终极方案，尤其对于咱们这样的折腾人士来说有NAS的话给它挂个PBS自动备份太重要了，崩溃了随时会退，太强了。

我是一台Dell7820的服务器来跑的，现在一个VM装各种服务和docker等等，另一个VM直通了显卡作为算力中心，LLM/Comfyui都在一起，很好用只是5070Ti算力不错，但是卡显存很难受，所以入了R9700还没到，估计之后又是一顿折腾，哈哈。不过二手的服务器确实很香，稳的一批！

CS6

最近買了一套 EPYC .....

kos or

@CS6 说:

96G ram

下重手了這～我還在考慮用二手的舊款
不知道使用效果如何

AGI

@fcme @cs6 搭建完毕后，有虚拟机不认显卡的问题，导致虚拟机无法启动，让Gemini修改后，功耗很高，有80多w。所以我放弃了。n卡好像没有这个问题。

CS6

@agi 虚拟机不认显卡應該是晶片組的分拆沒有正確的指派群組？功耗的問題的話應該是顯卡驅動可能不對吧？可以先讓AI幫你分析一下主機板的晶片組還有PC IE通道的分組

CS6

@kos-or 要看你的主板，還有處理器需要什麼？我自己最近打算收一套 64 *4 的 ddr4 3200 ecc rdimm ，X99 對應的記憶體記得蠻便宜的

AGI

@CS6 我已经让ai尽量帮我分析了，但是功耗方面，ai说，这是必须妥协的地方。不知道您的待机功耗多少呢？如果proxmox可以，我更好了！我太多网站都在我的另外一块硬盘上面！

kos or

@CS6 说:

64 *4 的 ddr4 3200 ecc rdimm

你打算再架第二台機器呀？
看到你買了一套EPYC了....

CS6

@kos-or 看到有意思的板子 ROMED4ID-2T
但配套還沒有全部買齊，就慢慢賺錢一邊收

https://www.newegg.com/asrock-rack-romed4id-2t-amd-epyc-7002-series-processors/p/N82E16813140059?srsltid=AfmBOoqkmMi9BC4TC94y3QT7yDvXoFy298sZ28C7Vs1HXI3dCnMsx-5t
參考圖

項目	品牌	規格
主機板	ASUS	ProArt B850-CREATOR WIFI NEO
CPU	AMD	Ryzen 9 9950X3D，16C / 32T
CPU FAN	DeepCool Digital	ASSASSIN IV VC VISION
FAN	Noctua	12" PWA、14" FN
記憶體	Kingston	DDR5 64GB，32GB x 2
顯示卡	AMD	Radeon AI PRO R9700
有線網路	Realtek	RTL8126 5GbE x 2
無線網路	Realtek	RTL8922AE Wi-Fi 7 / 802.11be
系統碟	Crucial / Micron	T500 NVMe SSD，約 2TB
資料碟	Samsung	980 / PM9A1 類 NVMe SSD，約 477GB
Windows 系統碟	Predator / Biwin	NVMe SSD，約 1TB，獨立 Windows 11 系統，主要用途：星際公民
電源	NZXT	1500W
Case	Cooler Master	QUBE 540

項目	版本 / 狀態
Hostname	`pve`
OS	Debian GNU/Linux 13 `trixie`
Proxmox VE	9.2.0
PVE Manager	9.2.2
Kernel	Linux 7.0.2-6-pve
QEMU/KVM	pve-qemu-kvm 11.0.0-3
QEMU Server	qemu-server 9.1.15
LXC	lxc-pve 7.0.0-2
ZFS utils	zfsutils-linux 2.4.2-pve1
Backup Client	proxmox-backup-client 4.2.0-1
Web UI	`https://<pve-ip>:8006/`
SSH	內網 SSH 管理

項目	內容	用途
主機板風扇控制	`fan-controller.service`、`/usr/local/bin/fan-controller.sh`、`nct6775`	控制 ASUS ProArt B850 的機箱/CPU 風扇曲線
DeepCool Digital	`deepcool-digital.service`、`deepcool-digital-linux`	DeepCool ASSASSIN IV VC VISION 顯示/控制
lm-sensors / fancontrol	`lm-sensors`、`fancontrol`、`/etc/fancontrol`、`/etc/sensors3.conf`	感測器讀值與風扇控制基礎
NFS Server	`nfs-kernel-server`、`/etc/exports`	匯出 `/mnt/ai-shared`、`/mnt/media-shared` 給 VM 使用
Tailscale	`tailscaled.service`	遠端維運與 subnet route
iperf3	`iperf3.service`	測試區網吞吐量
smartmontools	`smartmontools.service`	SSD / NVMe 健康狀態監控

項目	設定
PVE Resource Mapping	`gpu-r9700`
實體裝置	`<GPU PCI address>`
Device ID	`<R9700 device ID>`
IOMMU group	`<IOMMU group>`
VM 設定	`hostpci0: mapping=gpu-r9700,pcie=1`
VM BIOS / Machine	OVMF + q35
VM CPU	`host`

BIOS 項目	建議
SVM / AMD-V	Enabled
IOMMU	Enabled
Above 4G Decoding	Enabled
Resizable BAR	視情況，出問題可先關掉測試
CSM	Disabled，使用 UEFI

抡锤者

R9700 Proxmox VE 懶人部署兩週運行心得

R9700 Proxmox VE 懶人部署兩週運行心得

硬體規格

軟體規格

整體架構

GPU passthrough 設定教學：以 R9700 為例

1. BIOS 先打開虛擬化和 IOMMU

2. PVE host 啟用 IOMMU

3. 找出 GPU 的 PCI 裝置和 IOMMU group

4. 讓 host 不要拿這張卡當一般顯卡用

5. 用 Proxmox Resource Mapping 管理 GPU

6. VM 設定：OVMF + q35 + host CPU + PCIe passthrough

7. Guest 裡再裝 GPU stack

8. 單張卡的使用規則

儲存配置

網路配置

VM 與服務狀態

VM 100：主要 AI Lab 機器

VM 100 裡的容器與 AI 工具鏈

目前測過的模型與結果

對外服務與 Gateway

兩週運行心得

1. CPU 很夠，RAM 比較快緊

2. R9700 可以玩，但不要把 host 當實驗場

3. GPU passthrough 要接受它是「一張實體卡」

4. Cloudflare Tunnel 很省事

之後的規劃

相關連結

項目	設定
Mapping name	`gpu-r9700`
Node	`pve`
Path	`<GPU PCI address>`
Device ID	`<R9700 device ID>`
IOMMU group	`<IOMMU group>`

VM 設定	值
BIOS	OVMF
Machine	q35
CPU	host
GPU	`hostpci0: mapping=gpu-r9700,pcie=1`

狀況	做法
要跑 LLM	開 VM 100，VM 103 關機
要跑 ComfyUI	開 VM 103，VM 100 關機
要切換 VM	先停 vLLM / llama-server / ComfyUI，再 shutdown VM
VM 開不起來	先檢查另一台 GPU VM 是否還開著

Storage / Mount	類型	容量	使用狀態	備註
`local`	dir	約 94GB	實際用量約 13GB / 13.97%	PVE local storage，ISO、備份或 snippets
`local-lvm`	LVM-thin	約 1.67TB	thin pool 使用約 20.76%	主要 VM disk pool；VM disk 大小是上限，不等於實際寫滿
`samsung-lvm`	LVM	約 477GB	LVM 指派率約 98.55%	空間幾乎都已分配給 LV，但不等於檔案實際寫滿
`/mnt/ai-shared`	XFS	500GB	實際用量約 182GB / 37%	AI 模型、資料集、文件共享
`/mnt/media-shared`	XFS	200GB	實際用量約 3.9GB / 2%	媒體共享，位於 Samsung LV
`/`	ext4	94GB	實際用量約 14GB / 15%	PVE host root filesystem

介面	狀態	說明
`vmbr0`	UP	Proxmox bridge，管理 IP `<pve-ip>/24`
`nic1`	UP	`vmbr0` 的 bridge port
`nic0`	DOWN	保留
`wlp11s0`	DOWN	Wi-Fi 7 無線網卡，未作為主要網路
`tailscale0`	UP	Tailscale 遠端維運，IP `<tailscale-ip>`

VMID	名稱	狀態	RAM	Disk
100	`ubuntu-26.04-lab`	stopped	36GB	120GB
101	`gateway`	running	12GB	110GB
103	`lab-colleague`	running	36GB	120GB，ComfyUI
104	`cachyos-gaming`	stopped	24GB	120GB
9000	`debian-13-template`	stopped	2GB	3GB

項目	規格 / 設定
VMID	100
Hostname	`ubuntu-lab`
IP	`<lab-vm-ip>`
OS	Ubuntu 26.04 LTS
Kernel	7.0.0-15-generic
CPU	12 cores，pinned to CCD0
CPU affinity	`0-7,16-23`
RAM	36GB configured on PVE；文件規劃為 44GB，ballooning disabled
Disk	120GB system disk on `local-lvm`
GPU	R9700 passthrough，gfx1201 / RDNA4
Network	virtio on `vmbr0`
NFS mount	`/mnt/data`，來自 PVE `/mnt/ai-shared`
Container runtime	rootful podman
主要用途	AI inference、模型測試、ROCm/vLLM/llama.cpp 實驗

路徑	用途
`/mnt/data`	NFS shared storage，模型與資料共用
`~/ai-models -> /mnt/data`	方便操作模型資料的 symlink
`/mnt/data/hf-cache`	Hugging Face / vLLM model cache
`/mnt/data/models`	GGUF 與其他模型檔
`/dev/kfd`	ROCm compute device
`/dev/dri/renderD128`	DRM render device
`/var/lib/containers/storage/`	podman image/container storage，本機磁碟

容器	Runtime	Image	Port	狀態 / 用途
`vllm`	podman	`docker.io/kyuz0/vllm-therock-gfx1201:latest`	8000	vLLM + ROCm / TheRock，OpenAI-compatible API
`llama`	podman	`docker.io/kyuz0/amd-r9700-toolboxes:vulkan-radv`	8080	llama.cpp toolbox，跑 GGUF 模型

模型	格式	後端	平均速度	結論
`gemma4-26b-abliterated`	AWQ	vLLM	29.7 tok/s	穩定
`gemma4-31b-abliterated`	AWQ	vLLM	10.6 tok/s	context 較容易滿
`qwen3.6-35b-uncensored`	GGUF	llama.cpp	76.5 tok/s	MoE，速度最佳
`qwen3.6-27b-abliterated`	GGUF	llama.cpp	30.5 tok/s	穩定
`gemma4-31b-crack`	GGUF	llama.cpp	25.3 tok/s	長輪次測試會 OOM/crash
`qwen2.5-7b-uncensored`	GGUF	llama.cpp	80.1 tok/s	小模型速度非常快

URL	服務	Backend
`https://lab.example.com`	Homepage	gateway:3000
`https://status.example.com`	Uptime Kuma	gateway:3001
`https://api.example.com`	LiteLLM API	gateway:4000
`https://llm.example.com`	LiteLLM Web UI	gateway:4000
`https://chat.example.com`	Open WebUI	gateway:3003
`https://gpu.example.com`	vLLM direct	ubuntu-lab:8000

方向	想解決的問題	優點	需要確認
RAM 升級到 128GB 以上	VM 100 / VM 103 / gateway 同時規劃時，64GB 太緊	最直接改善 VM 配置彈性	先確認 2 DIMM 還是 4 DIMM、頻率與穩定性
增加第二張 R9700	LLM 和 ComfyUI 不用一直輪流搶同一張 GPU	AMD 生態一致，成本可能比較好控	主機板空間、供電、散熱、IOMMU group、ROCm 多卡支援
改看 B70	提高單卡 VRAM 或 AI workload 彈性	如果 VRAM/頻寬更好，可能比第二張 R9700 更適合 LLM	價格、可買性、ROCm 支援程度、Proxmox passthrough 成熟度
ComfyUI + 5090	補齊 CUDA 生態，降低 custom node 相容性問題	ComfyUI / PyTorch / xFormers / Triton 生態通常更順	5090 供電散熱、Linux driver、PCIe 空間、是否獨立給 VM 103
無 CUDA 時的 ComfyUI node 對應方案	R9700 上遇到 CUDA-only node 時，需要替代 workflow	不必所有圖像流程都依賴 NVIDIA	哪些 node 能用 ROCm/Vulkan/CPU 替代，哪些應該直接避開

ComfyUI 項目	5090 / CUDA	R9700 / 無 CUDA	備註
PyTorch GPU 加速	CUDA 路線最成熟	依賴 ROCm 支援	AMD 上要看 torch / ROCm 版本
xFormers / attention 加速	通常比較好處理	常需要替代方案	有些 workflow 會卡在這裡
CUDA-only custom node	大多可直接用	需要找替代 node 或改 workflow	之後要整理 node 對應清單
影像生成基礎流程	成熟	可行，但要看模型與套件	SD / Flux / video workflow 要分開測
Video / 3D / 特殊 node	CUDA 優勢明顯	不一定有等價方案	可能是 5090 最大價值