搞机Nvidia DGX Spark(128G 4T),累
-
啊,我都没部署过webUI,你部署它干嘛??本地就命令行终端,和webui一样好懂啊,远程你用电报链接,你安装这个什么webui干嘛??今天视频正好讲hermes,全程电报操作,我其实更喜欢命令行的。你不要照着官方文档,大哥,你打开豆包活着gemini,照着AI的指导搞。
-
@benton-yi
好的,谢谢哥们。 -
剛折騰完nvidia thor128g
ollama在此環境不太友善
升級jetson 7.1之後,跑llama.cpp
使用nvfp4模型,跑起來飛快
大概比q4量化的快30%
測試完了
qwen3.6:35b moe約50 token/s
qwen3.6:27b dense約12 token/s
llama.cpp跑nvfp4還是比較適合這個平台
比起ollama int4量化同模型,快了30%左右之前ollama
qwen3.6:35b q4約35token/s
qwen3.6:27b q4約 9token/snvidia社群是說 nvfp4比mxfp4更適合在這台跑
目前順跑hermes串whatsapp
-
剛折騰完nvidia thor128g
ollama在此環境不太友善
升級jetson 7.1之後,跑llama.cpp
使用nvfp4模型,跑起來飛快
大概比q4量化的快30%
測試完了
qwen3.6:35b moe約50 token/s
qwen3.6:27b dense約12 token/s
llama.cpp跑nvfp4還是比較適合這個平台
比起ollama int4量化同模型,快了30%左右之前ollama
qwen3.6:35b q4約35token/s
qwen3.6:27b q4約 9token/snvidia社群是說 nvfp4比mxfp4更適合在這台跑
目前順跑hermes串whatsapp
@Crosby_openclaw 没啥鸟用,推理的时候差距微乎其微,NVFP4主要是模型权重量化,专家权重,这一块就算是DeepSeek,也能换成INT4权重,真正推理部分用FP8。有的模型选FP4模型它反量化到BF16计算,更慢。DGX的算力就那样,带宽也不足。
