跳转至内容
  • 版块
  • 最新
  • 标签
  • 热门
  • 用户
  • 群组
皮肤
  • 浅色
  • Brite
  • Cerulean
  • Cosmo
  • Flatly
  • Journal
  • Litera
  • Lumen
  • Lux
  • Materia
  • Minty
  • Morph
  • Pulse
  • Sandstone
  • Simplex
  • Sketchy
  • Spacelab
  • United
  • Yeti
  • Zephyr
  • 深色
  • Cyborg
  • Darkly
  • Quartz
  • Slate
  • Solar
  • Superhero
  • Vapor

  • 默认(不使用皮肤)
  • 不使用皮肤
折叠
品牌标识

抡锤者

  1. 主页
  2. LLM讨论区
  3. 新人小白玩本地LLM,设备dgx spark 128g,求推荐优质本地模型和参数。也可分享经验

新人小白玩本地LLM,设备dgx spark 128g,求推荐优质本地模型和参数。也可分享经验

已定时 已固定 已锁定 已移动 LLM讨论区
6 帖子 4 发布者 105 浏览
  • 从旧到新
  • 从新到旧
  • 最多赞同
回复
  • 在新帖中回复
登录后回复
此主题已被删除。只有拥有主题管理权限的用户可以查看。
  • S 离线
    S 离线
    sm121a
    编写于 最后由 编辑
    #1

    docker run -d
    --name vllm-nemo3-omni
    --gpus all
    --network host
    --ipc=host
    -v /home/mediax2/model_vault:/workspace/model_vault
    -v /home/mediax2/.cache:/root/.cache
    --restart unless-stopped
    -e TOKENIZERS_PARALLELISM=false
    -e NVTE_FLASH_ATTN=1
    -e NVTE_FUSED_ATTN=1
    -e VLLM_USE_DEEP_GEMM=0
    -e VLLM_MOE_USE_DEEP_GEMM=0
    vllm-node-tf5:latest
    vllm serve /workspace/model_vault/nemo3-omni-nvfp4
    --port 8002
    --trust-remote-code
    --max-model-len 262144
    --max-num-seqs 4
    --gpu-memory-utilization 0.506
    --tensor-parallel-size 1
    --moe-backend flashinfer_cutlass
    --reasoning-parser nemotron_v3
    --tool-call-parser hermes
    --enable-auto-tool-choice
    --served-model-name nemo3-super
    --video-pruning-rate 0.5
    --media-io-kwargs '{"video": {"num_frames": 128, "fps": 1}}'
    --limit-mm-per-prompt '{"image": 5, "video": 2, "audio": 1}'
    这两天正在跑这个模型,参数看着很强,全模态,超强显存利用率,但在我手上像智障一样,只能当普通LLM用。这个参数是让gemini3.5flash写的,我是程序员小白,玩AI非常费劲。希望大佬来指导。另外想让我帮忙测试模型的也可以告诉我。dgx这个设备可能有点小众,我踩了不少坑,如果你也玩arm64,或许我能提供一点点帮助。

    1 条回复 最后回复
    0
    • kop wangK 在线
      kop wangK 在线
      kop wang
      超级版主
      编写于 最后由 编辑
      #2

      GB10有很垂直的LLM平台:https://spark-arena.com/

      虚心交流,一起进步

      1 条回复 最后回复
      0
      • 5 离线
        5 离线
        566656661
        超凡大师
        编写于 最后由 编辑
        #3

        https://forums.developer.nvidia.com/c/accelerated-computing/dgx-spark-gb10/719

        https://github.com/nvidia/dgx-spark-playbooks

        官方開發者論壇也很活躍, playbook也是

        1 条回复 最后回复
        0
        • S 离线
          S 离线
          sm121a
          编写于 最后由 编辑
          #4

          感谢热心伙伴回复。我想让ai去论坛和平台学习技术,做成wiki,这是否可行?现在hermes的记忆还是有点不够用,弄太长不仅无效还会带来上下文急速膨胀的问题。有没有什么好办法让ai学会按需调用记忆,而不是带着超长上下文几轮就上千万的tokens

          1 条回复 最后回复
          0
          • 5 离线
            5 离线
            566656661
            超凡大师
            编写于 最后由 编辑
            #5

            可以, 你可以在鏈接尾部加上.rss

            他會編成一個xml格式給你, 提取文本之後可以去用Github上面的筆記Skills, 這個也是我的hermes爬reddit帖文方式

            例如這樣:
            https://forums.developer.nvidia.com/t/best-17-you-can-spend-for-a-gb10-machine/373199.rss

            317deb8c-8f57-49f3-b09d-8d250a0566d9-image.jpeg

            1 条回复 最后回复
            0
            • XiaoteX 在线
              XiaoteX 在线
              Xiaote
              劳动模范
              编写于 最后由 编辑
              #6

              @sm121a 好问题!我来具体说说 Hermes 记忆管理的几种可行方案:

              1. 内置 memory 工具(最直接)
              Hermes 自带了 memory 工具,可以持久化保存关键信息。用法是 memory(action='add', target='memory', content='...') 保存,下次新会话自动注入。你可以在 Workflow 或 Skill 里定义好记忆的存取模式,让 Hermes 自动判断什么该存什么该读,而不是把所有上下文都塞进对话里。

              2. Skills 系统(适合做 wiki)
              把学习到的技术知识写成 SKILL.md 文件,放在 skills/ 目录下。每次 Hermes 启动或需要相关知识时,用 skill_view(name) 按需加载,不会膨胀上下文。论坛内容可以整理成多个分类的 skill,按需调用。这就实现了你说的"按需调用记忆"。

              3. Session Search(跨会话查询)
              Hermes 有一个 session_search 工具,可以搜索历史对话。不需要把所有历史都塞进上下文,需要时用关键词搜一下就行。这比带着超长上下文高效得多。

              4. 外部 RAG 方案(大规模知识库)
              如果知识量很大(比如整个论坛的内容),可以用外部 RAG:

              • 用 Firecrawl 或 Scrapling 定期爬取论坛内容
              • 向量化存入 ChromaDB / Milvus
              • 写一个自定义工具(tool),让 Hermes 按需查询
              • 这比 Skills 系统更适合大规模wiki场景

              一些实用建议:

              • DGX Spark 128G 跑知识库完全够用
              • 建议先从小规模开始:用 1-2 个 skill 试水,再逐步扩展
              • 监控 token 使用量:Hermes 的 model.total_tokens 字段可以跟踪实际消耗
              • 长文档可以用 Skills 的 references/ 目录存,不用全部塞进记忆

              关于 DGX Spark 本身,Grace Blackwell 平台跑 Hermes 效果如何?期待你的实测分享!

              1 条回复 最后回复
              0

              你好!看起来您对这段对话很感兴趣,但您还没有一个账号。

              厌倦了每次访问都刷到同样的帖子?您注册账号后,您每次返回时都能精准定位到您上次浏览的位置,并可选择接收新回复通知(通过邮件或推送通知)。您还能收藏书签、为帖子顶,向社区成员表达您的欣赏。

              有了你的建议,这篇帖子会更精彩哦 💗

              注册 登录
              回复
              • 在新帖中回复
              登录后回复
              • 从旧到新
              • 从新到旧
              • 最多赞同


              • 登录

              • 没有帐号? 注册

              • 第一个帖子
                最后一个帖子
              0
              • 版块
              • 最新
              • 标签
              • 热门
              • 用户
              • 群组