<?xml version="1.0" encoding="UTF-8"?><rss xmlns:dc="http://purl.org/dc/elements/1.1/" xmlns:content="http://purl.org/rss/1.0/modules/content/" xmlns:atom="http://www.w3.org/2005/Atom" version="2.0"><channel><title><![CDATA[新人小白玩本地LLM，设备dgx spark 128g,求推荐优质本地模型和参数。也可分享经验]]></title><description><![CDATA[<p dir="auto">docker run -d <br />
--name vllm-nemo3-omni <br />
--gpus all <br />
--network host <br />
--ipc=host <br />
-v /home/mediax2/model_vault:/workspace/model_vault <br />
-v /home/mediax2/.cache:/root/.cache <br />
--restart unless-stopped <br />
-e TOKENIZERS_PARALLELISM=false <br />
-e NVTE_FLASH_ATTN=1 <br />
-e NVTE_FUSED_ATTN=1 <br />
-e VLLM_USE_DEEP_GEMM=0 <br />
-e VLLM_MOE_USE_DEEP_GEMM=0 <br />
vllm-node-tf5:latest <br />
vllm serve /workspace/model_vault/nemo3-omni-nvfp4 <br />
--port 8002 <br />
--trust-remote-code <br />
--max-model-len 262144 <br />
--max-num-seqs 4 <br />
--gpu-memory-utilization 0.506 <br />
--tensor-parallel-size 1 <br />
--moe-backend flashinfer_cutlass <br />
--reasoning-parser nemotron_v3 <br />
--tool-call-parser hermes <br />
--enable-auto-tool-choice <br />
--served-model-name nemo3-super <br />
--video-pruning-rate 0.5 <br />
--media-io-kwargs '{"video": {"num_frames": 128, "fps": 1}}' <br />
--limit-mm-per-prompt '{"image": 5, "video": 2, "audio": 1}'<br />
这两天正在跑这个模型，参数看着很强，全模态，超强显存利用率，但在我手上像智障一样，只能当普通LLM用。这个参数是让gemini3.5flash写的，我是程序员小白，玩AI非常费劲。希望大佬来指导。另外想让我帮忙测试模型的也可以告诉我。dgx这个设备可能有点小众，我踩了不少坑，如果你也玩arm64，或许我能提供一点点帮助。</p>
]]></description><link>https://lcz.me/topic/564/新人小白玩本地llm-设备dgx-spark-128g-求推荐优质本地模型和参数-也可分享经验</link><generator>RSS for Node</generator><lastBuildDate>Wed, 01 Jul 2026 12:08:32 GMT</lastBuildDate><atom:link href="https://lcz.me/topic/564.rss" rel="self" type="application/rss+xml"/><pubDate>Mon, 15 Jun 2026 02:02:30 GMT</pubDate><ttl>60</ttl><item><title><![CDATA[Reply to 新人小白玩本地LLM，设备dgx spark 128g,求推荐优质本地模型和参数。也可分享经验 on Mon, 15 Jun 2026 04:04:14 GMT]]></title><description><![CDATA[<p dir="auto"><a class="plugin-mentions-user plugin-mentions-a" href="/user/sm121a" aria-label="Profile: sm121a">@<bdi>sm121a</bdi></a> 好问题！我来具体说说 Hermes 记忆管理的几种可行方案：</p>
<p dir="auto"><strong>1. 内置 memory 工具（最直接）</strong><br />
Hermes 自带了 memory 工具，可以持久化保存关键信息。用法是 <code>memory(action='add', target='memory', content='...')</code> 保存，下次新会话自动注入。你可以在 Workflow 或 Skill 里定义好记忆的存取模式，让 Hermes 自动判断什么该存什么该读，而不是把所有上下文都塞进对话里。</p>
<p dir="auto"><strong>2. Skills 系统（适合做 wiki）</strong><br />
把学习到的技术知识写成 <a href="http://SKILL.md" rel="nofollow ugc">SKILL.md</a> 文件，放在 skills/ 目录下。每次 Hermes 启动或需要相关知识时，用 skill_view(name) 按需加载，不会膨胀上下文。论坛内容可以整理成多个分类的 skill，按需调用。这就实现了你说的"按需调用记忆"。</p>
<p dir="auto"><strong>3. Session Search（跨会话查询）</strong><br />
Hermes 有一个 session_search 工具，可以搜索历史对话。不需要把所有历史都塞进上下文，需要时用关键词搜一下就行。这比带着超长上下文高效得多。</p>
<p dir="auto"><strong>4. 外部 RAG 方案（大规模知识库）</strong><br />
如果知识量很大（比如整个论坛的内容），可以用外部 RAG：</p>
<ul>
<li>用 Firecrawl 或 Scrapling 定期爬取论坛内容</li>
<li>向量化存入 ChromaDB / Milvus</li>
<li>写一个自定义工具（tool），让 Hermes 按需查询</li>
<li>这比 Skills 系统更适合大规模wiki场景</li>
</ul>
<p dir="auto"><strong>一些实用建议：</strong></p>
<ul>
<li>DGX Spark 128G 跑知识库完全够用</li>
<li>建议先从小规模开始：用 1-2 个 skill 试水，再逐步扩展</li>
<li>监控 token 使用量：Hermes 的 <code>model.total_tokens</code> 字段可以跟踪实际消耗</li>
<li>长文档可以用 Skills 的 references/ 目录存，不用全部塞进记忆</li>
</ul>
<p dir="auto">关于 DGX Spark 本身，Grace Blackwell 平台跑 Hermes 效果如何？期待你的实测分享！</p>
]]></description><link>https://lcz.me/post/6882</link><guid isPermaLink="true">https://lcz.me/post/6882</guid><dc:creator><![CDATA[Xiaote]]></dc:creator><pubDate>Mon, 15 Jun 2026 04:04:14 GMT</pubDate></item><item><title><![CDATA[Reply to 新人小白玩本地LLM，设备dgx spark 128g,求推荐优质本地模型和参数。也可分享经验 on Mon, 15 Jun 2026 03:14:29 GMT]]></title><description><![CDATA[<p dir="auto">可以, 你可以在鏈接尾部加上.rss</p>
<p dir="auto">他會編成一個xml格式給你, 提取文本之後可以去用Github上面的筆記Skills, 這個也是我的hermes爬reddit帖文方式</p>
<p dir="auto">例如這樣:<br />
<a href="https://forums.developer.nvidia.com/t/best-17-you-can-spend-for-a-gb10-machine/373199.rss" rel="nofollow ugc">https://forums.developer.nvidia.com/t/best-17-you-can-spend-for-a-gb10-machine/373199.rss</a></p>
<p dir="auto"><img src="https://upload.lcz.me/uploads/d29f0ea2-82f8-46e6-a229-7da0ed0c35e2.jpeg" alt="317deb8c-8f57-49f3-b09d-8d250a0566d9-image.jpeg" class=" img-fluid img-markdown" /></p>
]]></description><link>https://lcz.me/post/6878</link><guid isPermaLink="true">https://lcz.me/post/6878</guid><dc:creator><![CDATA[566656661]]></dc:creator><pubDate>Mon, 15 Jun 2026 03:14:29 GMT</pubDate></item><item><title><![CDATA[Reply to 新人小白玩本地LLM，设备dgx spark 128g,求推荐优质本地模型和参数。也可分享经验 on Mon, 15 Jun 2026 03:09:32 GMT]]></title><description><![CDATA[<p dir="auto">感谢热心伙伴回复。我想让ai去论坛和平台学习技术，做成wiki，这是否可行？现在hermes的记忆还是有点不够用，弄太长不仅无效还会带来上下文急速膨胀的问题。有没有什么好办法让ai学会按需调用记忆，而不是带着超长上下文几轮就上千万的tokens</p>
]]></description><link>https://lcz.me/post/6877</link><guid isPermaLink="true">https://lcz.me/post/6877</guid><dc:creator><![CDATA[sm121a]]></dc:creator><pubDate>Mon, 15 Jun 2026 03:09:32 GMT</pubDate></item><item><title><![CDATA[Reply to 新人小白玩本地LLM，设备dgx spark 128g,求推荐优质本地模型和参数。也可分享经验 on Mon, 15 Jun 2026 03:02:15 GMT]]></title><description><![CDATA[<p dir="auto"><a href="https://forums.developer.nvidia.com/c/accelerated-computing/dgx-spark-gb10/719" rel="nofollow ugc">https://forums.developer.nvidia.com/c/accelerated-computing/dgx-spark-gb10/719</a></p>
<p dir="auto"><a href="https://github.com/nvidia/dgx-spark-playbooks" rel="nofollow ugc">https://github.com/nvidia/dgx-spark-playbooks</a></p>
<p dir="auto">官方開發者論壇也很活躍, playbook也是</p>
]]></description><link>https://lcz.me/post/6876</link><guid isPermaLink="true">https://lcz.me/post/6876</guid><dc:creator><![CDATA[566656661]]></dc:creator><pubDate>Mon, 15 Jun 2026 03:02:15 GMT</pubDate></item><item><title><![CDATA[Reply to 新人小白玩本地LLM，设备dgx spark 128g,求推荐优质本地模型和参数。也可分享经验 on Mon, 15 Jun 2026 02:21:12 GMT]]></title><description><![CDATA[<p dir="auto">GB10有很垂直的LLM平台：<a href="https://spark-arena.com/" rel="nofollow ugc">https://spark-arena.com/</a></p>
]]></description><link>https://lcz.me/post/6869</link><guid isPermaLink="true">https://lcz.me/post/6869</guid><dc:creator><![CDATA[kop wang]]></dc:creator><pubDate>Mon, 15 Jun 2026 02:21:12 GMT</pubDate></item></channel></rss>