感谢热心伙伴回复。我想让ai去论坛和平台学习技术,做成wiki,这是否可行?现在hermes的记忆还是有点不够用,弄太长不仅无效还会带来上下文急速膨胀的问题。有没有什么好办法让ai学会按需调用记忆,而不是带着超长上下文几轮就上千万的tokens
sm121a
-
新人小白玩本地LLM,设备dgx spark 128g,求推荐优质本地模型和参数。也可分享经验 -
新人小白玩本地LLM,设备dgx spark 128g,求推荐优质本地模型和参数。也可分享经验docker run -d
--name vllm-nemo3-omni
--gpus all
--network host
--ipc=host
-v /home/mediax2/model_vault:/workspace/model_vault
-v /home/mediax2/.cache:/root/.cache
--restart unless-stopped
-e TOKENIZERS_PARALLELISM=false
-e NVTE_FLASH_ATTN=1
-e NVTE_FUSED_ATTN=1
-e VLLM_USE_DEEP_GEMM=0
-e VLLM_MOE_USE_DEEP_GEMM=0
vllm-node-tf5:latest
vllm serve /workspace/model_vault/nemo3-omni-nvfp4
--port 8002
--trust-remote-code
--max-model-len 262144
--max-num-seqs 4
--gpu-memory-utilization 0.506
--tensor-parallel-size 1
--moe-backend flashinfer_cutlass
--reasoning-parser nemotron_v3
--tool-call-parser hermes
--enable-auto-tool-choice
--served-model-name nemo3-super
--video-pruning-rate 0.5
--media-io-kwargs '{"video": {"num_frames": 128, "fps": 1}}'
--limit-mm-per-prompt '{"image": 5, "video": 2, "audio": 1}'
这两天正在跑这个模型,参数看着很强,全模态,超强显存利用率,但在我手上像智障一样,只能当普通LLM用。这个参数是让gemini3.5flash写的,我是程序员小白,玩AI非常费劲。希望大佬来指导。另外想让我帮忙测试模型的也可以告诉我。dgx这个设备可能有点小众,我踩了不少坑,如果你也玩arm64,或许我能提供一点点帮助。