跳转至内容
  • 版块
  • 最新
  • 标签
  • 热门
  • 用户
  • 群组
皮肤
  • 浅色
  • Brite
  • Cerulean
  • Cosmo
  • Flatly
  • Journal
  • Litera
  • Lumen
  • Lux
  • Materia
  • Minty
  • Morph
  • Pulse
  • Sandstone
  • Simplex
  • Sketchy
  • Spacelab
  • United
  • Yeti
  • Zephyr
  • 深色
  • Cyborg
  • Darkly
  • Quartz
  • Slate
  • Solar
  • Superhero
  • Vapor

  • 默认(不使用皮肤)
  • 不使用皮肤
折叠
品牌标识

抡锤者

  1. 主页
  2. LLM讨论区
  3. 双卡缝合怪 X99平台 P40+2080Ti的本地生产力平台

双卡缝合怪 X99平台 P40+2080Ti的本地生产力平台

已定时 已固定 已锁定 已移动 LLM讨论区
8 帖子 4 发布者 122 浏览
  • 从旧到新
  • 从新到旧
  • 最多赞同
回复
  • 在新帖中回复
登录后回复
此主题已被删除。只有拥有主题管理权限的用户可以查看。
  • Miemie YM 离线
    Miemie YM 离线
    Miemie Y
    编写于 最后由 编辑
    #1

    宝藏论坛啊!来晚了!

    今天先打点文字,改天再修改放图片。

    本地生产力平台替代Claude Code,跑代码任务。
    工作流是Codex作为大脑和我一起讨论方案生成ticket,再给worker落地。本地LLM就扮演worker。

    这套硬件缝合了我2016年的平台,再加上某鱼买的P40和朋友送的2080Ti,结合多年软硬件摸索经验实现的。测试了Qwen3.6和Gemma4的几个版本,最终选定MoE的Qwen3.6 35B A3B Q5 MTP,目前性能可以做到45-60左右的tps,上下文开到128k。

    等到电脑上分享一些截图和踩过的坑

    1 条回复 最后回复
    0
    • terryT 离线
      terryT 离线
      terry
      超级版主
      编写于 最后由 terry 编辑
      #2

      2080Ti已经有帖子测试过了,跑Qwen3.6 35B A3B完全没问题,这玩意跑Hermes也能跑,也能做些简单小功能,但我感觉这模型不行,我也用过,我觉得比较蠢,指令执行较差。不过有人说好用,见仁见智吧。

      油管:https://www.youtube.com/@抡锤者

      Miemie YM 1 条回复 最后回复
      0
      • soop ladiosS 离线
        soop ladiosS 离线
        soop ladios
        编写于 最后由 编辑
        #3

        2080 ti + P40, 可以跑Qwen 3.6 27B Q4量化了

        Miemie YM 1 条回复 最后回复
        0
        • XiaoteX 离线
          XiaoteX 离线
          Xiaote
          劳动模范
          编写于 最后由 编辑
          #4

          @Miemie-Y 你这个X99+P40+2080Ti的搭配很有想法,45-60 tps跑Qwen3.6 35B A3B在128K上下文下其实已经相当不错了,硬件利用率很高。

          关于terry说这个模型"比较蠢"——其实35B A3B的MoE结构确实是典型的"广度优先"型模型,指令跟随和复杂推理不如同尺寸的Dense模型(比如27B Q4_K_M)。但它的优势在于:35B的参数量+激活只有3B,KV cache占用小,128K上下文在2080Ti的12G上能跑得动,这是Dense模型做不到的。

          用在Codex worker角色上,其实这个选择挺合理的——worker主要是把ticket翻译成具体操作,不需要太强的推理能力,反而需要上下文长、生成速度快的特性。如果觉得指令执行不够稳,可以试试在system prompt里强调"严格按照ticket执行,不要擅自做判断",MoE模型在严格指令约束下表现会好很多。

          期待你后续的截图分享。

          1 条回复 最后回复
          0
          • terryT terry

            2080Ti已经有帖子测试过了,跑Qwen3.6 35B A3B完全没问题,这玩意跑Hermes也能跑,也能做些简单小功能,但我感觉这模型不行,我也用过,我觉得比较蠢,指令执行较差。不过有人说好用,见仁见智吧。

            Miemie YM 离线
            Miemie YM 离线
            Miemie Y
            编写于 最后由 编辑
            #5

            @terry 说:

            2080Ti已经有帖子测试过了,跑Qwen3.6 35B A3B完全没问题,这玩意跑Hermes也能跑,也能做些简单小功能,但我感觉这模型不行,我也用过,我觉得比较蠢,指令执行较差。不过有人说好用,见仁见智吧。

            是的锤哥,工具调用明显不如dense的27B智能,所以要把protocol写得非常清楚才行

            1 条回复 最后回复
            0
            • soop ladiosS soop ladios

              2080 ti + P40, 可以跑Qwen 3.6 27B Q4量化了

              Miemie YM 离线
              Miemie YM 离线
              Miemie Y
              编写于 最后由 编辑
              #6

              @soop-ladios 说:

              2080 ti + P40, 可以跑Qwen 3.6 27B Q4量化了

              我跑的是Q5,Q4可能还能快一些

              1 条回复 最后回复
              0
              • Miemie YM 离线
                Miemie YM 离线
                Miemie Y
                编写于 最后由 编辑
                #7

                6月10日更新

                电脑配置

                项目 配置
                主机 Ubuntu 本地 LLM 主机 llm
                OS Ubuntu 22.04.5 LTS
                Kernel Linux 5.15.0-174-generic
                CPU Intel Core i7-6850K @ 3.60GHz
                CPU 规格 6 核 / 12 线程
                内存 约 157 GiB RAM
                Swap 4 GiB /swap.img
                系统盘 Samsung NVMe 512GB,实际约 476.9GB
                GPU0 NVIDIA GeForce RTX 2080 Ti
                GPU0 显存 11,264 MiB
                GPU1 NVIDIA Tesla P40
                GPU1 显存 24,576 MiB
                NVIDIA Driver 535.288.01
                CUDA Runtime 12.2
                nvcc CUDA 11.5
                llama.cpp build 9528
                PCIe 约束 P40 当前按 Gen1 运行,属于已知硬件约束

                Llama cpp启动参数

                项目 值
                模型 Qwen3.6-35B-A3B-UD-MTP-Q5_K_XL.gguf
                上下文 131072
                KV Cache q8_0 / q8_0
                Tensor split 1.3,2
                Split mode layer
                Main GPU 0
                GPU layers 99
                MTP draft-mtp
                Draft tokens 3
                Reasoning on

                100k Context Cold Start Testing

                Prefilling

                d36cecdd-e441-4a2e-b71c-bea3859d43c6-image.jpeg
                f84244af-6a42-4c17-9ba0-fe90d88b3928-image.jpeg

                Generating

                7b614c50-d543-4365-9c14-4e496a827569-image.jpeg
                a25ed3aa-6627-4e16-8077-cf3527918dba-image.jpeg

                Results

                c1a21b2f-a728-47cc-b9e9-0360029c1b87-image.jpeg

                从测试结果可以看到,100k的上下文Prefill平均速度大概是 234 tok/s,thinking和content都能到 40+ tok/s,如果上下文小的话能到 55 tok/s。

                1 条回复 最后回复
                0
                • Miemie YM 离线
                  Miemie YM 离线
                  Miemie Y
                  编写于 最后由 编辑
                  #8

                  缝合怪本地 LLM 折腾记:X99 + RTX 2080 Ti + Tesla P40

                  这台"缝合怪"是自己以前的老硬件东平西凑来的,记录一下踩过的坑和目前的状态,供有类似想法的朋友参考。


                  遇到的坑和痛点

                  1. X99 平台 + P40 的 BIOS 启动问题

                  X99 是个年代久远、脾气刁钻的平台。P40 作为纯计算卡,没有视频输出,但插上之后会被主板优先识别,导致系统启动时卡在 BIOS 画面,显示器一片黑。

                  最终解决方案是通过降低 P40 所在 PCIe 通道的启动优先级,强制 P40 晚于 2080 Ti 完成初始化,才彻底解决这个问题。过程中试了很多方法,这条路不太直观,网上资料也零散。

                  2. 温度与噪音

                  目前是冬天,情况还算可控。但可以预见夏天会是另一番煎熬。

                  P40 原装被动散热,没有风扇,长时间推理温度会飙升。解决方案是拆下 Titan Xp 的涡轮风扇移植到 P40 上,引出风扇控制线接到主板风扇针脚,再通过软件 root 风扇控制逻辑,在管理面板里配置了基于温度的自动调速方案。目前运行稳定,但整机噪音在高负载下依然可观。

                  3. Qwen 3.6 35B A3B MoE 的稳定性问题

                  Qwen 3.6 35B A3B 是 MoE 架构,active 参数只有约 3.6B,输出速度快(实测约 41 tok/s decode),在缝合怪上跑起来性价比不错。

                  但跟同量级的 27B Dense 模型相比,它在长上下文下的 instruction following 稳定性较差,容易出现 thinking loop 和工具调用格式偏移。只要外部有足够强的约束框架(harness)控制任务边界和输出格式,用来做本地 agentic coding 还是完全可用的。没有约束的情况下,复杂任务的可靠性会明显下降。

                  4. 128k 上下文不够用

                  128k 的上下文窗口在单 session 多轮代码修改的场景下远远不够。一旦触发上下文压缩,prefill 阶段需要重新处理大量 token,100k 冷启动实测 TTFT 约 428 秒,压缩期间 decode 速度也会从正常的 41 tok/s 大幅下降。这段等待体验非常差,是目前整个方案最大的短板。


                  下一步打算

                  缝合怪作为过渡方案已经验证了本地 LLM 的可行性,但多卡异构带来的复杂度和性能瓶颈越来越明显。

                  目前倾向于等 Apple M5 Ultra。如果真的像传闻里的192GB 统一内存 + 约 1228 GB/s 内存带宽,可以直接跑 70B 以上的 Dense 模型而不需要多卡拼接,省去异构平台的所有麻烦。相比继续在 PC 平台上堆显卡,M5 Ultra 的性价比和可维护性更有吸引力。

                  当然如果近期有合适的显卡升级机会也不排除,但长期方向应该是统一内存架构。


                  硬件:X99 + RTX 2080 Ti 11GB + Tesla P40 24GB | 推理框架:llama.cpp build 9528 | 主力模型:Qwen 3.6 35B A3B MoE Q5

                  1 条回复 最后回复
                  0
                  • terryT terry 固定了该主题
                  • 系统 取消固定了该主题

                  你好!看起来您对这段对话很感兴趣,但您还没有一个账号。

                  厌倦了每次访问都刷到同样的帖子?您注册账号后,您每次返回时都能精准定位到您上次浏览的位置,并可选择接收新回复通知(通过邮件或推送通知)。您还能收藏书签、为帖子顶,向社区成员表达您的欣赏。

                  有了你的建议,这篇帖子会更精彩哦 💗

                  注册 登录
                  回复
                  • 在新帖中回复
                  登录后回复
                  • 从旧到新
                  • 从新到旧
                  • 最多赞同


                  • 登录

                  • 没有帐号? 注册

                  • 登录或注册以进行搜索。
                  • 第一个帖子
                    最后一个帖子
                  0
                  • 版块
                  • 最新
                  • 标签
                  • 热门
                  • 用户
                  • 群组