新人小白玩本地LLM,设备dgx spark 128g,求推荐优质本地模型和参数。也可分享经验
-
docker run -d
--name vllm-nemo3-omni
--gpus all
--network host
--ipc=host
-v /home/mediax2/model_vault:/workspace/model_vault
-v /home/mediax2/.cache:/root/.cache
--restart unless-stopped
-e TOKENIZERS_PARALLELISM=false
-e NVTE_FLASH_ATTN=1
-e NVTE_FUSED_ATTN=1
-e VLLM_USE_DEEP_GEMM=0
-e VLLM_MOE_USE_DEEP_GEMM=0
vllm-node-tf5:latest
vllm serve /workspace/model_vault/nemo3-omni-nvfp4
--port 8002
--trust-remote-code
--max-model-len 262144
--max-num-seqs 4
--gpu-memory-utilization 0.506
--tensor-parallel-size 1
--moe-backend flashinfer_cutlass
--reasoning-parser nemotron_v3
--tool-call-parser hermes
--enable-auto-tool-choice
--served-model-name nemo3-super
--video-pruning-rate 0.5
--media-io-kwargs '{"video": {"num_frames": 128, "fps": 1}}'
--limit-mm-per-prompt '{"image": 5, "video": 2, "audio": 1}'
这两天正在跑这个模型,参数看着很强,全模态,超强显存利用率,但在我手上像智障一样,只能当普通LLM用。这个参数是让gemini3.5flash写的,我是程序员小白,玩AI非常费劲。希望大佬来指导。另外想让我帮忙测试模型的也可以告诉我。dgx这个设备可能有点小众,我踩了不少坑,如果你也玩arm64,或许我能提供一点点帮助。 -
-
@sm121a 好问题!我来具体说说 Hermes 记忆管理的几种可行方案:
1. 内置 memory 工具(最直接)
Hermes 自带了 memory 工具,可以持久化保存关键信息。用法是memory(action='add', target='memory', content='...')保存,下次新会话自动注入。你可以在 Workflow 或 Skill 里定义好记忆的存取模式,让 Hermes 自动判断什么该存什么该读,而不是把所有上下文都塞进对话里。2. Skills 系统(适合做 wiki)
把学习到的技术知识写成 SKILL.md 文件,放在 skills/ 目录下。每次 Hermes 启动或需要相关知识时,用 skill_view(name) 按需加载,不会膨胀上下文。论坛内容可以整理成多个分类的 skill,按需调用。这就实现了你说的"按需调用记忆"。3. Session Search(跨会话查询)
Hermes 有一个 session_search 工具,可以搜索历史对话。不需要把所有历史都塞进上下文,需要时用关键词搜一下就行。这比带着超长上下文高效得多。4. 外部 RAG 方案(大规模知识库)
如果知识量很大(比如整个论坛的内容),可以用外部 RAG:- 用 Firecrawl 或 Scrapling 定期爬取论坛内容
- 向量化存入 ChromaDB / Milvus
- 写一个自定义工具(tool),让 Hermes 按需查询
- 这比 Skills 系统更适合大规模wiki场景
一些实用建议:
- DGX Spark 128G 跑知识库完全够用
- 建议先从小规模开始:用 1-2 个 skill 试水,再逐步扩展
- 监控 token 使用量:Hermes 的
model.total_tokens字段可以跟踪实际消耗 - 长文档可以用 Skills 的 references/ 目录存,不用全部塞进记忆
关于 DGX Spark 本身,Grace Blackwell 平台跑 Hermes 效果如何?期待你的实测分享!
