搞机Nvidia DGX Spark(128G 4T)，累

Jonathan

@terry 机器在墙内阿，没在上面装梯子，电报上不去，微信也不爽~~~

我是一边打开AI一边搞的，AI也被搞崩溃~~~，搞来绕圈，各自尝试，最后还是失败~

Jonathan

@terry 原生的Ubuntu

Tide

我本地部署模型是在物理机安装的Ubuntu server，一直很稳定。就是hermes和webui是安装在wsl2里面，各种问题让人崩溃。

terry

@Jonathan 你梯子这么简单的事不会搞吗，问豆包和gemini，走v2ray。

terry

@Tide win本来就bug多，热切效率也不高。

linax777

@Tide 沒辦法選字是 terminal app 的問題吧。多試試不同的 terminal app

Jonathan

@terry 好吧，本来想偷懒，我以前在自己的VPS上装过x-ui面板，不难，就是烦。看来还是绕不过去阿，既然这样的话，还是老实去装个梯子先。谢谢特老板！

terry

@Jonathan 你买VPN肯定没有用亚马逊主机稳定的，有很多AI会禁止你访问。xui是正解，躲在cloudflare后面即可。一个人用，也便宜，流量足够。

bef

@terry 請教terry兄：Brave API費用高，亞馬遜VPS用作爬蟲穩定嗎？阿里雲/騰訊雲VPS很容易被擋 (禁止訪問)

謝謝

Tide

@linax777 有可能，最近老是出现状况。

benton yi

@Tide 如果是ubuntu系统，没法选字的情况是在hermes提出危险命令预警，让你选择是否执行之后原生终端会死锁。解决办法是你直接用hermes --yolo运行。

terry

@bef 我用谷歌，便宜的很，没研究。

Kk Hh

没搞懂，你们想干嘛，反正也是 DGX Spark 技嘉版本的

terry

@Kk-Hh 挺好，有图有真相。

Tide

@benton-yi 好的，谢谢哥们。

Crosby_openclaw

剛折騰完nvidia thor128g
ollama在此環境不太友善
升級jetson 7.1之後，跑llama.cpp
使用nvfp4模型，跑起來飛快
大概比q4量化的快30%
測試完了
qwen3.6:35b moe約50 token/s
qwen3.6:27b dense約12 token/s
llama.cpp跑nvfp4還是比較適合這個平台
比起ollama int4量化同模型，快了30%左右

之前ollama
qwen3.6:35b q4約35token/s
qwen3.6:27b q4約 9token/s

nvidia社群是說 nvfp4比mxfp4更適合在這台跑

目前順跑hermes串whatsapp

terry

@Crosby_openclaw 没啥鸟用，推理的时候差距微乎其微，NVFP4主要是模型权重量化，专家权重，这一块就算是DeepSeek，也能换成INT4权重，真正推理部分用FP8。有的模型选FP4模型它反量化到BF16计算，更慢。DGX的算力就那样，带宽也不足。

抡锤者

搞机Nvidia DGX Spark(128G 4T)，累