跳转至内容
  • 版块
  • 最新
  • 标签
  • 热门
  • 用户
  • 群组
皮肤
  • 浅色
  • Brite
  • Cerulean
  • Cosmo
  • Flatly
  • Journal
  • Litera
  • Lumen
  • Lux
  • Materia
  • Minty
  • Morph
  • Pulse
  • Sandstone
  • Simplex
  • Sketchy
  • Spacelab
  • United
  • Yeti
  • Zephyr
  • 深色
  • Cyborg
  • Darkly
  • Quartz
  • Slate
  • Solar
  • Superhero
  • Vapor

  • 默认(不使用皮肤)
  • 不使用皮肤
折叠
品牌标识

抡锤者

S

sm121a

@sm121a
取消关注 关注
关于
帖子
2
主题
1
分享
0
群组
0
粉丝
0
关注
0

帖子

最新 最佳 有争议的

  • 新人小白玩本地LLM,设备dgx spark 128g,求推荐优质本地模型和参数。也可分享经验
    S sm121a

    感谢热心伙伴回复。我想让ai去论坛和平台学习技术,做成wiki,这是否可行?现在hermes的记忆还是有点不够用,弄太长不仅无效还会带来上下文急速膨胀的问题。有没有什么好办法让ai学会按需调用记忆,而不是带着超长上下文几轮就上千万的tokens

    LLM讨论区

  • 新人小白玩本地LLM,设备dgx spark 128g,求推荐优质本地模型和参数。也可分享经验
    S sm121a

    docker run -d
    --name vllm-nemo3-omni
    --gpus all
    --network host
    --ipc=host
    -v /home/mediax2/model_vault:/workspace/model_vault
    -v /home/mediax2/.cache:/root/.cache
    --restart unless-stopped
    -e TOKENIZERS_PARALLELISM=false
    -e NVTE_FLASH_ATTN=1
    -e NVTE_FUSED_ATTN=1
    -e VLLM_USE_DEEP_GEMM=0
    -e VLLM_MOE_USE_DEEP_GEMM=0
    vllm-node-tf5:latest
    vllm serve /workspace/model_vault/nemo3-omni-nvfp4
    --port 8002
    --trust-remote-code
    --max-model-len 262144
    --max-num-seqs 4
    --gpu-memory-utilization 0.506
    --tensor-parallel-size 1
    --moe-backend flashinfer_cutlass
    --reasoning-parser nemotron_v3
    --tool-call-parser hermes
    --enable-auto-tool-choice
    --served-model-name nemo3-super
    --video-pruning-rate 0.5
    --media-io-kwargs '{"video": {"num_frames": 128, "fps": 1}}'
    --limit-mm-per-prompt '{"image": 5, "video": 2, "audio": 1}'
    这两天正在跑这个模型,参数看着很强,全模态,超强显存利用率,但在我手上像智障一样,只能当普通LLM用。这个参数是让gemini3.5flash写的,我是程序员小白,玩AI非常费劲。希望大佬来指导。另外想让我帮忙测试模型的也可以告诉我。dgx这个设备可能有点小众,我踩了不少坑,如果你也玩arm64,或许我能提供一点点帮助。

    LLM讨论区
  • 登录

  • 没有帐号? 注册

  • 第一个帖子
    最后一个帖子
0
  • 版块
  • 最新
  • 标签
  • 热门
  • 用户
  • 群组