跳转至内容
  • 版块
  • 最新
  • 标签
  • 热门
  • 用户
  • 群组
皮肤
  • 浅色
  • Brite
  • Cerulean
  • Cosmo
  • Flatly
  • Journal
  • Litera
  • Lumen
  • Lux
  • Materia
  • Minty
  • Morph
  • Pulse
  • Sandstone
  • Simplex
  • Sketchy
  • Spacelab
  • United
  • Yeti
  • Zephyr
  • 深色
  • Cyborg
  • Darkly
  • Quartz
  • Slate
  • Solar
  • Superhero
  • Vapor

  • 默认(不使用皮肤)
  • 不使用皮肤
折叠
品牌标识

抡锤者

  1. 主页
  2. AI硬件
  3. 被抡锤者种草后,我用 X99 + 4090D 48G 搭了一台本地 LLM 服务器

被抡锤者种草后,我用 X99 + 4090D 48G 搭了一台本地 LLM 服务器

已定时 已固定 已锁定 已移动 AI硬件
31 帖子 11 发布者 975 浏览
  • 从旧到新
  • 从新到旧
  • 最多赞同
回复
  • 在新帖中回复
登录后回复
此主题已被删除。只有拥有主题管理权限的用户可以查看。
  • Ivan YinI 离线
    Ivan YinI 离线
    Ivan Yin
    编写于 最后由 Ivan Yin 编辑
    #20

    llama.cpp有更新,与mtp性能相关,我编译新版本后比较一下
    截图 2026-06-13 14-34-33.png

    在平时使用时,没有什么区别,q8依然还是43左右t/s
    截图 2026-06-13 16-58-07.png 截图 2026-06-13 16-58-11.png

    1 条回复 最后回复
    0
    • A applejuice

      @williamlouis 说:

      4080S 16G 是个神器哈。网上都找不到的好货。让 AI 看看是不是可以变32G。
      很多问题你在Mac 上装个 Hermes 接入你的4090就可以了。或Mac用在线 api 。本地AI作局域网提供算力等。
      NAS 是需要的。可以做工作配合存储中枢。如果你需要多 AI 配合工作。用这nas 是个配置比较简单的方案。设置好只读和可写 就能让 AI看另一个 AI的工作结果,然后接力式工作。或围观审核等。手写不太详细:分区。每个区作为一个AI 算力的可写区。其他AI看需要接力的工作区,设置可读,不可写。想法告诉 Hermes 用 DeepSeek flash 就可以实现。你可以描述的更精细点就可以了。
      模型够用就好。这点你做的很好。不要疯狂的搞什么长上下文。够用就行。用不到搞那么长干么?对于不是需要马上就能生产的东西。没什么测试必要。现在更新太快了。无休止的测试是永远测不完的。

      4080s 升级是自己能搞的吗? 会不会搞完就废? 😆

      williamlouisW 离线
      williamlouisW 离线
      williamlouis
      超级版主
      编写于 最后由 编辑
      #21

      @applejuice 找个你本地的能干的工作室给你搞。换显存 自己搞什么?不过升级意义很大。变32G就是神器一件了。

      个人主页:xlkj.org Telegram https://t.me/xlkjorg

      Ivan YinI 1 条回复 最后回复
      0
      • williamlouisW 离线
        williamlouisW 离线
        williamlouis
        超级版主
        编写于 最后由 编辑
        #22

        京东我看见 有以旧换新的商铺 就你把16G给他。它直接给你一块 32G的。变相的少折腾升级。当然到手的就是别人的16G魔改后的到你手了。你的后续也是魔改了给别人。

        个人主页:xlkj.org Telegram https://t.me/xlkjorg

        1 条回复 最后回复
        0
        • williamlouisW williamlouis

          @applejuice 找个你本地的能干的工作室给你搞。换显存 自己搞什么?不过升级意义很大。变32G就是神器一件了。

          Ivan YinI 离线
          Ivan YinI 离线
          Ivan Yin
          编写于 最后由 Ivan Yin 编辑
          #23

          @williamlouis 说:

          @applejuice 找个你本地的能干的工作室给你搞。换显存 自己搞什么?不过升级意义很大。变32G就是神器一件了。

          这卡我还想留着打游戏呢,哈哈。稳定第一,干活交给4090d好了,不能把风险都放在同一个魔改卡的篮子里。原装三风扇的4080s无论怎么说都是可以长期稳定使用的,哪怕像老特4090d出问题,4090能干的所有活4080都能降低质量接续上。

          1 条回复 最后回复
          0
          • Ivan YinI 离线
            Ivan YinI 离线
            Ivan Yin
            编写于 最后由 编辑
            #24

            更正上面的测试,编写汉语文章是43t/s,但是coding的速度远大于这个,稳定在60左右,完全是可用状态,没有必要为了节省显存或追求最高速度,降低精度了

            截图 2026-06-13 21-41-56-s.jpg
            截图 2026-06-13 21-44-30.png

            截图 2026-06-13 21-45-40.png

            J 1 条回复 最后回复
            0
            • Bryant WuB 离线
              Bryant WuB 离线
              Bryant Wu
              编写于 最后由 编辑
              #25

              感谢细致的分享。小白敬上

              1 条回复 最后回复
              0
              • 你 离线
                你 离线
                你的名字我的名字都是一样的
                编写于 最后由 编辑
                #26

                可以关掉桌面UI,也可以考虑换一块5700G集显负担桌面UI的性能。感觉5700G也足够了,除非用X3DCPU才会有所区别,延迟会好一点。

                Ivan YinI 1 条回复 最后回复
                0
                • 你 你的名字我的名字都是一样的

                  可以关掉桌面UI,也可以考虑换一块5700G集显负担桌面UI的性能。感觉5700G也足够了,除非用X3DCPU才会有所区别,延迟会好一点。

                  Ivan YinI 离线
                  Ivan YinI 离线
                  Ivan Yin
                  编写于 最后由 编辑
                  #27

                  @你的名字我的名字都是一样的 说:

                  可以关掉桌面UI,也可以考虑换一块5700G集显负担桌面UI的性能。感觉5700G也足够了,除非用X3DCPU才会有所区别,延迟会好一点。

                  也是个思路,现在9x00x系列的amd也带核显了,如果是新amd平台或者带核显的intel平台(非e5),确实可以这样操作

                  1 条回复 最后回复
                  0
                  • ,系统 取消固定了此主题
                  • Ivan YinI Ivan Yin

                    更正上面的测试,编写汉语文章是43t/s,但是coding的速度远大于这个,稳定在60左右,完全是可用状态,没有必要为了节省显存或追求最高速度,降低精度了

                    截图 2026-06-13 21-41-56-s.jpg
                    截图 2026-06-13 21-44-30.png

                    截图 2026-06-13 21-45-40.png

                    J 离线
                    J 离线
                    joker_chang
                    德高望重 劳动模范
                    编写于 最后由 joker_chang 编辑
                    #28

                    @Ivan-Yin

                    【--spec-type draft-mtp ^
                    --spec-draft-n-max 3 ^】
                    实施效果呢......

                    我的3090跑Qwen3.6-27B-unslothMTP-Q4_K_M.gguf,Hermes coding能稳定60~70t/s;最快能到80多t/s

                    当然,受限于显存大小,只能
                    【
                    --ctx-size 131072 ^
                    --batch-size 4096^
                    --ubatch-size 2048 ^
                    --flash-attn on ^
                    --cache-type-k q4_0 ^
                    --cache-type-v q4_0 ^
                    】

                    d5b46d03-1270-49d8-90b9-bcbb8294483b-image.jpeg

                    1 条回复 最后回复
                    1
                    • J 离线
                      J 离线
                      joker_chang
                      德高望重 劳动模范
                      编写于 最后由 joker_chang 编辑
                      #29

                      刚才试用了lordx64\Qwable-v1.IQ4_XS.gguf

                      启动参数【
                      --reasoning off ^
                      --n-gpu-layers -1 ^
                      --ctx-size 262144 ^
                      --batch-size 4096^
                      --ubatch-size 2048 ^
                      --flash-attn on ^
                      --cache-type-k q8_0 ^
                      --cache-type-v q8_0 ^
                      --temp 0.7 ^
                      --parallel 1 ^
                      --kv-unified ^
                      --mlock ^
                      --jinja
                      】

                      生辰tokens能跑到120多/秒;但是这个模型有些蠢,我放弃了。

                      1 条回复 最后回复
                      0
                      • nami ryuuN 离线
                        nami ryuuN 离线
                        nami ryuu
                        编写于 最后由 编辑
                        #30

                        @ivan-yin 我想问你是在哪家买的4090d 48g,声音大吗?

                        williamlouisW 1 条回复 最后回复
                        0
                        • nami ryuuN nami ryuu

                          @ivan-yin 我想问你是在哪家买的4090d 48g,声音大吗?

                          williamlouisW 离线
                          williamlouisW 离线
                          williamlouis
                          超级版主
                          编写于 最后由 编辑
                          #31

                          @nami-ryuu 大。峰值工作噪音过75分贝

                          个人主页:xlkj.org Telegram https://t.me/xlkjorg

                          1 条回复 最后回复
                          0

                          你好!看起来您对这段对话很感兴趣,但您还没有一个账号。

                          厌倦了每次访问都刷到同样的帖子?您注册账号后,您每次返回时都能精准定位到您上次浏览的位置,并可选择接收新回复通知(通过邮件或推送通知)。您还能收藏书签、为帖子顶,向社区成员表达您的欣赏。

                          有了你的建议,这篇帖子会更精彩哦 💗

                          注册 登录
                          回复
                          • 在新帖中回复
                          登录后回复
                          • 从旧到新
                          • 从新到旧
                          • 最多赞同


                          • 登录

                          • 没有帐号? 注册

                          • 第一个帖子
                            最后一个帖子
                          0
                          • 版块
                          • 最新
                          • 标签
                          • 热门
                          • 用户
                          • 群组