跳转至内容
  • 版块
  • 最新
  • 标签
  • 热门
  • 用户
  • 群组
皮肤
  • 浅色
  • Brite
  • Cerulean
  • Cosmo
  • Flatly
  • Journal
  • Litera
  • Lumen
  • Lux
  • Materia
  • Minty
  • Morph
  • Pulse
  • Sandstone
  • Simplex
  • Sketchy
  • Spacelab
  • United
  • Yeti
  • Zephyr
  • 深色
  • Cyborg
  • Darkly
  • Quartz
  • Slate
  • Solar
  • Superhero
  • Vapor

  • 默认(不使用皮肤)
  • 不使用皮肤
折叠
品牌标识

抡锤者

Miemie YM

Miemie Y

@Miemie Y
关于
帖子
5
主题
1
分享
0
群组
0
粉丝
0
关注
0

帖子

最新 最佳 有争议的

  • 双卡缝合怪 X99平台 P40+2080Ti的本地生产力平台
    Miemie YM Miemie Y

    缝合怪本地 LLM 折腾记:X99 + RTX 2080 Ti + Tesla P40

    这台"缝合怪"是自己以前的老硬件东平西凑来的,记录一下踩过的坑和目前的状态,供有类似想法的朋友参考。


    遇到的坑和痛点

    1. X99 平台 + P40 的 BIOS 启动问题

    X99 是个年代久远、脾气刁钻的平台。P40 作为纯计算卡,没有视频输出,但插上之后会被主板优先识别,导致系统启动时卡在 BIOS 画面,显示器一片黑。

    最终解决方案是通过降低 P40 所在 PCIe 通道的启动优先级,强制 P40 晚于 2080 Ti 完成初始化,才彻底解决这个问题。过程中试了很多方法,这条路不太直观,网上资料也零散。

    2. 温度与噪音

    目前是冬天,情况还算可控。但可以预见夏天会是另一番煎熬。

    P40 原装被动散热,没有风扇,长时间推理温度会飙升。解决方案是拆下 Titan Xp 的涡轮风扇移植到 P40 上,引出风扇控制线接到主板风扇针脚,再通过软件 root 风扇控制逻辑,在管理面板里配置了基于温度的自动调速方案。目前运行稳定,但整机噪音在高负载下依然可观。

    3. Qwen 3.6 35B A3B MoE 的稳定性问题

    Qwen 3.6 35B A3B 是 MoE 架构,active 参数只有约 3.6B,输出速度快(实测约 41 tok/s decode),在缝合怪上跑起来性价比不错。

    但跟同量级的 27B Dense 模型相比,它在长上下文下的 instruction following 稳定性较差,容易出现 thinking loop 和工具调用格式偏移。只要外部有足够强的约束框架(harness)控制任务边界和输出格式,用来做本地 agentic coding 还是完全可用的。没有约束的情况下,复杂任务的可靠性会明显下降。

    4. 128k 上下文不够用

    128k 的上下文窗口在单 session 多轮代码修改的场景下远远不够。一旦触发上下文压缩,prefill 阶段需要重新处理大量 token,100k 冷启动实测 TTFT 约 428 秒,压缩期间 decode 速度也会从正常的 41 tok/s 大幅下降。这段等待体验非常差,是目前整个方案最大的短板。


    下一步打算

    缝合怪作为过渡方案已经验证了本地 LLM 的可行性,但多卡异构带来的复杂度和性能瓶颈越来越明显。

    目前倾向于等 Apple M5 Ultra。如果真的像传闻里的192GB 统一内存 + 约 1228 GB/s 内存带宽,可以直接跑 70B 以上的 Dense 模型而不需要多卡拼接,省去异构平台的所有麻烦。相比继续在 PC 平台上堆显卡,M5 Ultra 的性价比和可维护性更有吸引力。

    当然如果近期有合适的显卡升级机会也不排除,但长期方向应该是统一内存架构。


    硬件:X99 + RTX 2080 Ti 11GB + Tesla P40 24GB | 推理框架:llama.cpp build 9528 | 主力模型:Qwen 3.6 35B A3B MoE Q5

    LLM讨论区

  • 双卡缝合怪 X99平台 P40+2080Ti的本地生产力平台
    Miemie YM Miemie Y

    6月10日更新

    电脑配置

    项目 配置
    主机 Ubuntu 本地 LLM 主机 llm
    OS Ubuntu 22.04.5 LTS
    Kernel Linux 5.15.0-174-generic
    CPU Intel Core i7-6850K @ 3.60GHz
    CPU 规格 6 核 / 12 线程
    内存 约 157 GiB RAM
    Swap 4 GiB /swap.img
    系统盘 Samsung NVMe 512GB,实际约 476.9GB
    GPU0 NVIDIA GeForce RTX 2080 Ti
    GPU0 显存 11,264 MiB
    GPU1 NVIDIA Tesla P40
    GPU1 显存 24,576 MiB
    NVIDIA Driver 535.288.01
    CUDA Runtime 12.2
    nvcc CUDA 11.5
    llama.cpp build 9528
    PCIe 约束 P40 当前按 Gen1 运行,属于已知硬件约束

    Llama cpp启动参数

    项目 值
    模型 Qwen3.6-35B-A3B-UD-MTP-Q5_K_XL.gguf
    上下文 131072
    KV Cache q8_0 / q8_0
    Tensor split 1.3,2
    Split mode layer
    Main GPU 0
    GPU layers 99
    MTP draft-mtp
    Draft tokens 3
    Reasoning on

    100k Context Cold Start Testing

    Prefilling

    d36cecdd-e441-4a2e-b71c-bea3859d43c6-image.jpeg
    f84244af-6a42-4c17-9ba0-fe90d88b3928-image.jpeg

    Generating

    7b614c50-d543-4365-9c14-4e496a827569-image.jpeg
    a25ed3aa-6627-4e16-8077-cf3527918dba-image.jpeg

    Results

    c1a21b2f-a728-47cc-b9e9-0360029c1b87-image.jpeg

    从测试结果可以看到,100k的上下文Prefill平均速度大概是 234 tok/s,thinking和content都能到 40+ tok/s,如果上下文小的话能到 55 tok/s。

    LLM讨论区

  • 双卡缝合怪 X99平台 P40+2080Ti的本地生产力平台
    Miemie YM Miemie Y

    @soop-ladios 说:

    2080 ti + P40, 可以跑Qwen 3.6 27B Q4量化了

    我跑的是Q5,Q4可能还能快一些

    LLM讨论区

  • 双卡缝合怪 X99平台 P40+2080Ti的本地生产力平台
    Miemie YM Miemie Y

    @terry 说:

    2080Ti已经有帖子测试过了,跑Qwen3.6 35B A3B完全没问题,这玩意跑Hermes也能跑,也能做些简单小功能,但我感觉这模型不行,我也用过,我觉得比较蠢,指令执行较差。不过有人说好用,见仁见智吧。

    是的锤哥,工具调用明显不如dense的27B智能,所以要把protocol写得非常清楚才行

    LLM讨论区

  • 双卡缝合怪 X99平台 P40+2080Ti的本地生产力平台
    Miemie YM Miemie Y

    宝藏论坛啊!来晚了!

    今天先打点文字,改天再修改放图片。

    本地生产力平台替代Claude Code,跑代码任务。
    工作流是Codex作为大脑和我一起讨论方案生成ticket,再给worker落地。本地LLM就扮演worker。

    这套硬件缝合了我2016年的平台,再加上某鱼买的P40和朋友送的2080Ti,结合多年软硬件摸索经验实现的。测试了Qwen3.6和Gemma4的几个版本,最终选定MoE的Qwen3.6 35B A3B Q5 MTP,目前性能可以做到45-60左右的tps,上下文开到128k。

    等到电脑上分享一些截图和踩过的坑

    LLM讨论区
  • 登录

  • 没有帐号? 注册

  • 登录或注册以进行搜索。
  • 第一个帖子
    最后一个帖子
0
  • 版块
  • 最新
  • 标签
  • 热门
  • 用户
  • 群组