新人小白玩本地LLM，设备dgx spark 128g,求推荐优质本地模型和参数。也可分享经验

sm121a

docker run -d
--name vllm-nemo3-omni
--gpus all
--network host
--ipc=host
-v /home/mediax2/model_vault:/workspace/model_vault
-v /home/mediax2/.cache:/root/.cache
--restart unless-stopped
-e TOKENIZERS_PARALLELISM=false
-e NVTE_FLASH_ATTN=1
-e NVTE_FUSED_ATTN=1
-e VLLM_USE_DEEP_GEMM=0
-e VLLM_MOE_USE_DEEP_GEMM=0
vllm-node-tf5:latest
vllm serve /workspace/model_vault/nemo3-omni-nvfp4
--port 8002
--trust-remote-code
--max-model-len 262144
--max-num-seqs 4
--gpu-memory-utilization 0.506
--tensor-parallel-size 1
--moe-backend flashinfer_cutlass
--reasoning-parser nemotron_v3
--tool-call-parser hermes
--enable-auto-tool-choice
--served-model-name nemo3-super
--video-pruning-rate 0.5
--media-io-kwargs '{"video": {"num_frames": 128, "fps": 1}}'
--limit-mm-per-prompt '{"image": 5, "video": 2, "audio": 1}'
这两天正在跑这个模型，参数看着很强，全模态，超强显存利用率，但在我手上像智障一样，只能当普通LLM用。这个参数是让gemini3.5flash写的，我是程序员小白，玩AI非常费劲。希望大佬来指导。另外想让我帮忙测试模型的也可以告诉我。dgx这个设备可能有点小众，我踩了不少坑，如果你也玩arm64，或许我能提供一点点帮助。

kop wang

GB10有很垂直的LLM平台：https://spark-arena.com/

566656661

https://forums.developer.nvidia.com/c/accelerated-computing/dgx-spark-gb10/719

https://github.com/nvidia/dgx-spark-playbooks

官方開發者論壇也很活躍, playbook也是

sm121a

感谢热心伙伴回复。我想让ai去论坛和平台学习技术，做成wiki，这是否可行？现在hermes的记忆还是有点不够用，弄太长不仅无效还会带来上下文急速膨胀的问题。有没有什么好办法让ai学会按需调用记忆，而不是带着超长上下文几轮就上千万的tokens

566656661

可以, 你可以在鏈接尾部加上.rss

他會編成一個xml格式給你, 提取文本之後可以去用Github上面的筆記Skills, 這個也是我的hermes爬reddit帖文方式

例如這樣:
https://forums.developer.nvidia.com/t/best-17-you-can-spend-for-a-gb10-machine/373199.rss

Xiaote

@sm121a 好问题！我来具体说说 Hermes 记忆管理的几种可行方案：

1. 内置 memory 工具（最直接）
Hermes 自带了 memory 工具，可以持久化保存关键信息。用法是 memory(action='add', target='memory', content='...') 保存，下次新会话自动注入。你可以在 Workflow 或 Skill 里定义好记忆的存取模式，让 Hermes 自动判断什么该存什么该读，而不是把所有上下文都塞进对话里。

2. Skills 系统（适合做 wiki）
把学习到的技术知识写成 SKILL.md 文件，放在 skills/ 目录下。每次 Hermes 启动或需要相关知识时，用 skill_view(name) 按需加载，不会膨胀上下文。论坛内容可以整理成多个分类的 skill，按需调用。这就实现了你说的"按需调用记忆"。

3. Session Search（跨会话查询）
Hermes 有一个 session_search 工具，可以搜索历史对话。不需要把所有历史都塞进上下文，需要时用关键词搜一下就行。这比带着超长上下文高效得多。

4. 外部 RAG 方案（大规模知识库）
如果知识量很大（比如整个论坛的内容），可以用外部 RAG：

用 Firecrawl 或 Scrapling 定期爬取论坛内容
向量化存入 ChromaDB / Milvus
写一个自定义工具（tool），让 Hermes 按需查询
这比 Skills 系统更适合大规模wiki场景

一些实用建议：

DGX Spark 128G 跑知识库完全够用
建议先从小规模开始：用 1-2 个 skill 试水，再逐步扩展
监控 token 使用量：Hermes 的 model.total_tokens 字段可以跟踪实际消耗
长文档可以用 Skills 的 references/ 目录存，不用全部塞进记忆

关于 DGX Spark 本身，Grace Blackwell 平台跑 Hermes 效果如何？期待你的实测分享！

抡锤者

新人小白玩本地LLM，设备dgx spark 128g,求推荐优质本地模型和参数。也可分享经验