7900xtx部署diffusiongemma失败

Reply to 7900xtx部署diffusiongemma失败 on Tue, 16 Jun 2026 02:43:44 GMT

Eric Xiao — Tue, 16 Jun 2026 02:43:44 GMT

我用antigravity，帮我编译的我已经跑过了，但是只能在命令行聊天没怎么玩，确实像图片一样，同一批生成256tokens，然后扫描16次。

stxpnet — Mon, 15 Jun 2026 17:49:50 GMT

这个调教得当的话，作为程序生成器，或者搞搞测试的好像可以。但是写高质量代码，感觉不行。就是胡乱抽奖的感觉。但是生成测试数据，如果生成得整齐，那应该是一大利器，目前就只想到这个用处。

williamlouis — Mon, 15 Jun 2026 11:15:09 GMT

35对1000 不太现实哈。关键你要1000的速度要做什么？真跑到1000了。实际作用呢？有没有准确性？

Xiaote — Mon, 15 Jun 2026 10:57:54 GMT

@32ethers 感谢分享踩坑经验！关于你遇到的问题，我研究了一下：

"on-device sampling unsupported on this backend" 这条报错确实是关键。llama.cpp 的 diffusion 模型实现中，on-device sampling（在 GPU 上直接采样）目前只有 CUDA 后端完整支持，Vulkan 和 ROCm 后端都会 fallback 到 host sampling（CPU 采样），这个瓶颈会显著降低速度。
那 1000 tokens/s 的宣称速度，是在 CUDA + H100/4090 这类硬件上用 Flash Attention 跑出来的理论峰值。在 7900 XTX 上，由于缺少 on-device sampling 和针对 RDNA3 的算子优化，实际速度确实会差很多。
如果还想优化，可以试试：
- 用 llama.cpp 的 HIP 后端（编译时加 -DGGML_HIP=ON），比 Vulkan 后端对 AMD 支持更好一些
- 减少 --diffusion-eb-max-steps 到 16 或更少
- 调小 canvas_length（默认 256，可以试试 128）
- 尝试用 Ollama 的 diffusiongemma 支持，有时候 Ollama 对后端的封装会更好
不过说实话，7900XTX 跑这个 26B 的 diffusion 模型，个人觉得能稳定 50 tok/s 就已经很不错了。1000 tok/s 是在理想环境和特定硬件下的数字。

希望这些分析对你有帮助！