跳转至内容
  • 版块
  • 最新
  • 标签
  • 热门
  • 用户
  • 群组
皮肤
  • 浅色
  • Brite
  • Cerulean
  • Cosmo
  • Flatly
  • Journal
  • Litera
  • Lumen
  • Lux
  • Materia
  • Minty
  • Morph
  • Pulse
  • Sandstone
  • Simplex
  • Sketchy
  • Spacelab
  • United
  • Yeti
  • Zephyr
  • 深色
  • Cyborg
  • Darkly
  • Quartz
  • Slate
  • Solar
  • Superhero
  • Vapor

  • 默认(不使用皮肤)
  • 不使用皮肤
折叠
品牌标识

抡锤者

Ivan YinI

Ivan Yin

@Ivan Yin
关于
帖子
17
主题
1
分享
0
群组
0
粉丝
0
关注
0

帖子

最新 最佳 有争议的

  • 被抡锤者种草后,我用 X99 + 4090D 48G 搭了一台本地 LLM 服务器
    Ivan YinI Ivan Yin

    这套东西目前已经能用了,但我觉得还没有到“完全榨干”的状态。后面主要想继续看两个问题。

    1. 流程和资源还能怎么优化

    现在硬件分工大概清楚了:

    4090D:本地 LLM 后端
    4080S:游戏 + ComfyUI
    Mac mini:API 工作台
    NAS:存储和轻服务
    

    但硬件分工清楚,不代表流程已经最优。

    我现在更想优化的是“怎么调用”:

    什么时候用本地 Qwen3.6
    什么时候用 DeepSeek
    什么时候用其他在线 API
    什么时候让 4080S 跑 ComfyUI
    什么时候把资料放到 NAS
    什么时候开 64K
    什么时候切 262K
    

    这部分其实比单纯调模型参数更影响日常体验。

    目前想到的方向有几个:

    1. 给本地 Qwen3.6 做固定模式
       coding、long-context、creative,不同模式对应不同参数。
    
    2. 给 Mac mini 配好统一 API 入口
       本地模型、DeepSeek、其他在线模型都从同一套工具里调。
    
    3. 不要什么都塞进 262K
       能用项目摘要、RAG、分块资料解决的,就不要每次硬塞长上下文。
    
    4. ComfyUI 和 LLM 彻底分开
       4080S 该打游戏打游戏,该画图画图,不被 LLM 常驻占显存。
    
    5. NAS 做资料和模型仓库
       模型、工作流、输出图、代码项目、资料库集中管理,别散在几台机器里。
    

    也就是说,下一步未必是继续买硬件,而是把这些机器之间的调用链打通。

    硬件只是地基,真正好不好用,还是看工作流。

    2. 4090D 跑本地模型是不是已经到极限

    这个问题我现在的看法是:还没有到绝对极限,但已经比较接近“单卡 48G 跑 27B 高量化长上下文”的舒适区上限。

    以现在这套 Qwen3.6-27B Q8_0 来看,4090D 48G 已经能比较舒服地跑:

    Q8_0 主模型
    KV q8_0
    MTP N=2
    64K 日常上下文
    262K 长上下文备用
    reasoning 按场景开关
    

    262K 下显存大概 40GB 出头,还有余量。
    这说明它不是贴着显存墙在跑。

    但这个余量也不是无限的。只要继续往上加东西,比如:

    更大模型
    更高精度 KV
    更多并发
    更长上下文
    视觉模型
    多个服务同时常驻
    

    48G 很快也会开始紧。

    所以我觉得要分两层看。

    如果目标是 Qwen3.6-27B Q8_0,本地 coding、agent、写作、长文档处理,那么这张 4090D 48G 已经很舒服了。再继续调,主要是小幅优化速度、显存和流程,不会有本质飞跃。

    如果目标变成更大模型,比如 35B、70B,或者想同时跑多模型、多并发、多模态,那单张 4090D 48G 就还不是终点。那就不是参数优化问题,而是显存规模和多卡架构问题了。

    所以我暂时不急着继续堆硬件。
    这张 4090D 48G 现在最该做的不是继续跑分,而是稳定服务。

    先把 Qwen3.6 跑顺,把 Mac mini 的 API 工作台打通,把 4080S 的游戏和 ComfyUI 保留下来,把 NAS 的资料管理理顺。等这些都顺了,再看下一步到底是换模型、加卡,还是继续优化流程。

    AI硬件

  • 被抡锤者种草后,我用 X99 + 4090D 48G 搭了一台本地 LLM 服务器
    Ivan YinI Ivan Yin

    start_huihui_qwen36_v2.zip

    让 AI 写了个启动脚本,在 Ubuntu 上可以直接右键运行,压缩包已附上。

    里面是我这两天在本地电脑上跑通、实测可用的几组优化启动脚本,主要围绕启发提问式运行来做配置:

    选择 qwen3.6 27b 的 Q8 还是 Q6 量化;

    是否加载视觉识别组件;

    几组针对不同用途优化的启动参数。

    下面是脚本运行时的交互界面截图,供大家参考:

    图1:是否加载视觉模型
    脚本首先询问是否加载视觉模型。选 1 为纯文本模式,选 2 则加载视觉模型(使用 mmproj-model-f16.gguf)。
    1.png
    截图:选择界面

    图2:选择主模型量化版本(第一次出现)
    选完视觉模型后,进入量化版本选择:

    Q8_0:精度优先,推荐日常主力

    Q6:速度/显存优先,自动搜索 Q6 GGUF
    2.png
    截图:选择界面,这里选了 1(Q8_0)

    图3:选择运行模式
    接着选择运行模式:

    Coding/Agent:64K,reasoning off,推荐默认

    Long Context:262K,reasoning off,适合大文档/大项目/知识库

    Creative:64K,reasoning on + budget 256,适合小说/剧本/提示词
    3.png
    截图:选择界面,这里选了 1(Coding/Agent)

    图4:是否开启 WebUI + 端口冲突处理
    继续配置时,脚本还会询问是否开启 llama.cpp WebUI:

    关闭:推荐给 OpenCode/Agent/API 使用

    开启:浏览器直接访问 http://服务器IP:8080

    如果开启时 8080 端口被占用,脚本会提示检测到旧进程(如 llama-server,PID 3135),并询问是否结束该进程:
    4.png
    5.png
    截图:端口占用提示及 [y/N] 等待输入

    ⚠️ 使用提示:模型和 llama.cpp 的路径请根据自己电脑的实际地址修改(懒得手改的话,直接把路径要求连同文件一起扔给 Hermes 就行)。

    AI硬件

  • 被抡锤者种草后,我用 X99 + 4090D 48G 搭了一台本地 LLM 服务器
    Ivan YinI Ivan Yin

    这部分说具体折腾过程。

    1. 为什么 D1581 没继续用来带 4090D

    D1581 不是废物。做 NAS、轻服务、低功耗常驻都可以。

    但带 4090D 48G 长期跑本地大模型,我觉得不合适。

    不是点不亮,也不是完全不能跑,而是整个使用状态都在将就:

    平台老
    机箱和散热不舒服
    电源和走线不舒服
    PCIe 和扩展余量有限
    系统响应和维护体验一般
    后续折腾空间小
    

    大模型推理大头确实在 GPU,但宿主平台也不是完全没影响。模型加载、prompt processing、磁盘 IO、驱动环境、远程服务、散热稳定性,最后都会影响日常体验。

    所以 D1581 最后回到 NAS 和轻服务位置。

    2. 为什么选 X99 AD4 + E5-2690 v4

    X99 AD4 + E5-2690 v4 不是性能信仰。

    我的要求很简单:

    能稳定跑 Ubuntu 24.04
    能插 4090D
    能复用旧 ECC DDR4
    能远程管理
    能常驻 llama-server
    不要给 GPU 添太多麻烦
    

    从这个角度看,X99 作为低成本 GPU 宿主是合适的。

    E5-2690 v4 单路 14 核 28 线程,今天看不算强。但我的目标不是让 CPU 跑推理,而是让它稳定承载 4090D。旧 ECC 内存还能继续用,这一点对成本很有帮助。

    3. 为什么 4090D 48G 给 LLM

    买 4090D 48G 前,真正纠结的是显存,不是算力。

    如果只是游戏和 ComfyUI,4080S 16G 还能继续用。但本地大模型不一样。

    我的目标是跑 Qwen3.6-27B,并尽量保留:

    Q8_0 量化
    较长上下文
    KV Cache 不要压得太狠
    MTP 加速
    本地 API 常驻
    coding / agent 场景稳定
    

    这些条件叠起来以后,16G 显存肯定不合适。24G 能玩,但会频繁在模型量化、上下文长度、KV Cache 和速度之间算账。

    48G 的价值不是跑分好看,而是让 27B Q8_0 进入比较舒服的长期使用状态。

    4. Qwen3.6-27B 当前配置

    我现在跑的是:

    Huihui-Qwen3.6-27B-abliterated-MTP-GGUF
    Q8_0
    llama.cpp
    Ubuntu 24.04
    4090D 48G
    

    目前比较稳定的思路是:

    主模型:Q8_0
    KV Cache:q8_0
    Flash Attention:开
    MTP:开
    spec-draft-n-max:2
    parallel:1
    日常上下文:64K
    大文档备用:262K
    

    262K 配置大概如下:

    /home/ivanyin/AI/llama.cpp/build/bin/llama-server \
      -m "/home/ivanyin/AI/GGUF/huihui-ai/Huihui-Qwen3.6-27B-abliterated-MTP-GGUF/Huihui-Qwen3.6-27B-abliterated-ggml-model-Q8_0.gguf" \
      --alias huihui-q8 \
      --host 0.0.0.0 --port 8080 --no-webui \
      -ngl all --parallel 1 \
      -c 262144 -fa on \
      -ctk q8_0 -ctv q8_0 \
      -b 2048 -ub 512 \
      --spec-type draft-mtp --spec-draft-n-max 2 \
      --jinja \
      --reasoning off \
      --chat-template-kwargs '{"preserve_thinking":false}'
    

    这套配置下,262K 上下文显存大概 40GB 出头,4090D 48G 还有余量。

    但我现在不建议日常默认 262K。长上下文的麻烦不完全在生成速度,更多时候在 prompt processing。一次性塞很多内容进去,前处理会明显拖慢。262K 更像是备用能力,不是每天都要拉满。

    我现在更常用的是:

    日常 coding / agent:64K,reasoning off
    大文档 / 大项目:262K,reasoning off
    创作 / 剧情 / 分镜:64K,可按需开 reasoning
    

    5. MTP 为什么固定 N=2

    Qwen3.6 的 MTP 确实有用。

    我现在固定:

    --spec-type draft-mtp --spec-draft-n-max 2
    

    自己的取舍大概是:

    无 MTP:约 29.7 t/s
    N=1:稳,加速明显
    N=2:约 46.8 t/s,速度、接受率、稳定性比较平衡
    N=4:有时更快,但接受率下降
    N=5:拒绝太多,不适合长期干活
    

    跑 benchmark 可以试 N=4。
    但日常 coding、agent、工具调用,我更愿意要 N=2。

    本地模型长期用,不是只看最高 t/s。体感等待、输出稳定性、服务可靠性,都要算进去。

    6. KV Cache 为什么选 q8_0

    KV Cache 我最后选:

    -ctk q8_0 -ctv q8_0
    

    f16 当然更保守,但 262K 下显存占用太高。
    q4_0 更省显存,但我都上 48G 了,也没必要一开始压这么狠。

    q8_0 这个点比较舒服:

    比 f16 省显存
    比 q4_0 更让我放心
    速度没有明显损失
    适合 27B Q8_0 + 长上下文
    

    7. Thinking 不无脑开

    写代码、OpenCode、工具调用这些场景,我基本关掉:

    --reasoning off
    --chat-template-kwargs '{"preserve_thinking":false}'
    

    原因很简单:这些场景更需要直接、稳定、可复现。Thinking 会吃 token,但不一定带来更好的结果。

    创作类任务可以开,但必须限制 budget:

    --reasoning on \
    --reasoning-budget 256 \
    --chat-template-kwargs '{"preserve_thinking":true}'
    

    本地推理的 token 都是自己的时间、电费和等待。不是越会想越好。

    8. 4080S 和 Mac mini 的位置

    4080S 这台机器不是纯生图机,它还是我的游戏机:

    MSI B550M 迫击炮
    Ryzen 9 5900X
    32GB 内存
    RTX 4080 Super 16G
    

    它跑 27B LLM 会比较尴尬,但跑游戏、ComfyUI、SDXL、LoRA、ControlNet、局部重绘、提示词调试都很舒服。让它继续做桌面主力,比被 LLM 常驻占显存更合理。

    Mac mini M4 则更像 API 工作台:

    调用 DeepSeek API
    调用本地 Qwen3.6 API
    调用其他在线模型 API
    写程序
    写文章
    整理资料
    SSH 到 Ubuntu 机器
    打开 ComfyUI 和本地模型前端
    

    重计算交给 4090D 和 4080S,Mac mini 负责调度和使用。这个分工目前比较舒服。

    AI硬件

  • 被抡锤者种草后,我用 X99 + 4090D 48G 搭了一台本地 LLM 服务器
    Ivan YinI Ivan Yin

    这次折腾的起因很偶然。

    大概一个月前,YouTube 给我推了抡锤者频道的一期视频。点进去以后有点上头,后来陆陆续续把相关内容基本都看了一遍。最开始只是被 48G 显存、本地大模型、Qwen、Hermes、ComfyUI 这些关键词吸引,后来才发现,这件事正好能解决我家里几台机器长期以来的资源分配问题。

    我原来已经有几台设备:

    5900X + MSI B550M 迫击炮 + 32G + RTX 4080S 16G
    Mac mini M4
    D1581 平台 / NAS
    一些旧 DDR4 ECC 内存
    

    问题不是完全没有硬件,而是这些硬件没有各归其位。

    4080S 这台桌面机本来要打游戏,也能跑 ComfyUI,但 16G 显存拿来硬扛 27B 本地大模型主力,显然会比较难受。

    Mac mini M4 很安静,适合当日常工作台,调用 DeepSeek、本地模型和其他在线 API,用来写程序、写文章都很顺,但它不适合承担重负载。

    D1581 做 NAS 和轻服务可以,但长期带大显卡跑 LLM,我觉得不太合适。

    最后新增了一套机器:

    主板:华南金牌 X99 AD4
    CPU:Intel Xeon E5-2690 v4 @ 2.60GHz,单路 14 核 28 线程
    内存:64 GiB ECC DDR4
    显卡:NVIDIA GeForce RTX 4090D 48G
    系统:Ubuntu 24.04
    

    内存是从老 NAS 上拆下来的,当时买得很便宜,不到 500 元。X99 平台不新,E5-2690 v4 也不强,但这套组合的定位很明确:不是追新,也不是靠 CPU 推理,而是低成本承载 4090D 48G。

    现在我的分工是:

    4090D 48G:本地大语言模型后端,主力跑 Qwen3.6-27B Q8_0
    4080S 16G:桌面主力,兼顾游戏和 ComfyUI
    Mac mini M4:日常 AI 工作台,调用 DeepSeek、本地模型和各种 API
    D1581 / NAS:回归存储和轻服务
    

    这套分工理顺以后,体验比单纯把所有硬件堆到一台机器上舒服很多。

    4090D 不进桌面机打游戏,而是常驻 llama-server。
    4080S 不被 LLM 长期占显存,继续负责游戏和 ComfyUI。
    Mac mini 不做重计算,只负责调度和使用。
    NAS 不硬扛大显卡,继续做它擅长的存储和轻服务。

    这次最大的收获不是“4090D 很强”,而是家用本地 AI 不能只看单机性能。LLM、ComfyUI、游戏、NAS、日常写作编程,根本不是同一种负载。显存、噪音、维护成本、远程访问、环境隔离,都要一起考虑。

    目前这套架构已经能稳定用起来:

    4090D 跑本地 LLM
    4080S 负责游戏和 ComfyUI
    Mac mini 调用 DeepSeek / 本地模型 / 其他 API,写程序和文章
    NAS 做存储和资料管理
    

    简单说,就是从“能跑”变成了“能用”。

    AI硬件

  • 被抡锤者种草后,我用 X99 + 4090D 48G 搭了一台本地 LLM 服务器
    Ivan YinI Ivan Yin

    同样参数下,调用q6量化模型,速度提升10t/s。显存占用25584MiB(刚24g左右),再稍微优化上下文,也适合24g显存的朋友使用(为求保险,可以关闭桌面ui)。

    截图 2026-06-13 14-00-40.png
    截图 2026-06-13 14-00-45.png
    截图 2026-06-13 14-03-27.png

    AI硬件
  • 登录

  • 没有帐号? 注册

  • 登录或注册以进行搜索。
  • 第一个帖子
    最后一个帖子
0
  • 版块
  • 最新
  • 标签
  • 热门
  • 用户
  • 群组