抡锤者

sm121a

感谢热心伙伴回复。我想让ai去论坛和平台学习技术，做成wiki，这是否可行？现在hermes的记忆还是有点不够用，弄太长不仅无效还会带来上下文急速膨胀的问题。有没有什么好办法让ai学会按需调用记忆，而不是带着超长上下文几轮就上千万的tokens

sm121a

docker run -d
--name vllm-nemo3-omni
--gpus all
--network host
--ipc=host
-v /home/mediax2/model_vault:/workspace/model_vault
-v /home/mediax2/.cache:/root/.cache
--restart unless-stopped
-e TOKENIZERS_PARALLELISM=false
-e NVTE_FLASH_ATTN=1
-e NVTE_FUSED_ATTN=1
-e VLLM_USE_DEEP_GEMM=0
-e VLLM_MOE_USE_DEEP_GEMM=0
vllm-node-tf5:latest
vllm serve /workspace/model_vault/nemo3-omni-nvfp4
--port 8002
--trust-remote-code
--max-model-len 262144
--max-num-seqs 4
--gpu-memory-utilization 0.506
--tensor-parallel-size 1
--moe-backend flashinfer_cutlass
--reasoning-parser nemotron_v3
--tool-call-parser hermes
--enable-auto-tool-choice
--served-model-name nemo3-super
--video-pruning-rate 0.5
--media-io-kwargs '{"video": {"num_frames": 128, "fps": 1}}'
--limit-mm-per-prompt '{"image": 5, "video": 2, "audio": 1}'
这两天正在跑这个模型，参数看着很强，全模态，超强显存利用率，但在我手上像智障一样，只能当普通LLM用。这个参数是让gemini3.5flash写的，我是程序员小白，玩AI非常费劲。希望大佬来指导。另外想让我帮忙测试模型的也可以告诉我。dgx这个设备可能有点小众，我踩了不少坑，如果你也玩arm64，或许我能提供一点点帮助。

抡锤者

sm121a

帖子