跳转至内容
  • 版块
  • 最新
  • 标签
  • 热门
  • 用户
  • 群组
皮肤
  • 浅色
  • Brite
  • Cerulean
  • Cosmo
  • Flatly
  • Journal
  • Litera
  • Lumen
  • Lux
  • Materia
  • Minty
  • Morph
  • Pulse
  • Sandstone
  • Simplex
  • Sketchy
  • Spacelab
  • United
  • Yeti
  • Zephyr
  • 深色
  • Cyborg
  • Darkly
  • Quartz
  • Slate
  • Solar
  • Superhero
  • Vapor

  • 默认(不使用皮肤)
  • 不使用皮肤
折叠
品牌标识

抡锤者

  1. 主页
  2. AI硬件
  3. 京东自营上了5090、6000pro,应该怎么选。

京东自营上了5090、6000pro,应该怎么选。

已定时 已固定 已锁定 已移动 AI硬件
23 帖子 7 发布者 604 浏览 1 关注中
  • 从旧到新
  • 从新到旧
  • 最多赞同
回复
  • 在新帖中回复
登录后回复
此主题已被删除。只有拥有主题管理权限的用户可以查看。
  • ? 离线
    ? 离线
    老用户
    编写于 最后由 编辑
    #1

    目前的需求是想跑localLLM(也就是qwen3.6-27B)来支持hermes agent。图、音、视频的本地生成是可选项。
    目前京东自营的价格是5090 33331, RTX PRO 6000的工作站版本和MAX-Q版本都是72634。

    想问一下锤哥和大家,这二者从性价比的角度考虑如何选择与解读。网上有种论调是RTX PRO 6000 的96GB显存其实比较鸡肋。稍大的模型跑不了,小模型又overkill。

    我能想到的对于96GB显存最好的使用场景就是localLLM+本地音视频,5090的32GB显存应该是满足不了同时LLM和图片文生图的。

    不知道各位怎么理解。

    terryT 1 条回复 最后回复
    0
    • ? 老用户

      目前的需求是想跑localLLM(也就是qwen3.6-27B)来支持hermes agent。图、音、视频的本地生成是可选项。
      目前京东自营的价格是5090 33331, RTX PRO 6000的工作站版本和MAX-Q版本都是72634。

      想问一下锤哥和大家,这二者从性价比的角度考虑如何选择与解读。网上有种论调是RTX PRO 6000 的96GB显存其实比较鸡肋。稍大的模型跑不了,小模型又overkill。

      我能想到的对于96GB显存最好的使用场景就是localLLM+本地音视频,5090的32GB显存应该是满足不了同时LLM和图片文生图的。

      不知道各位怎么理解。

      terryT 离线
      terryT 离线
      terry
      编写于 最后由 编辑
      #2

      @王一民 4090 48G或者RTX Pro6000,有钱就上6000,一步到位,是有性能过剩的嫌疑,这是事实,但5090确实有显存不够用的时候。你就算买RTX Pro6000,也最好不要同时用它跑模型和生图,因为抢资源你不好控制。也可以卖一个32G的4080S搭配5090或者RTX pro5000.

      油管:https://www.youtube.com/@抡锤者

      ? benton yiB 2 条回复 最后回复
      0
      • terryT terry

        @王一民 4090 48G或者RTX Pro6000,有钱就上6000,一步到位,是有性能过剩的嫌疑,这是事实,但5090确实有显存不够用的时候。你就算买RTX Pro6000,也最好不要同时用它跑模型和生图,因为抢资源你不好控制。也可以卖一个32G的4080S搭配5090或者RTX pro5000.

        ? 离线
        ? 离线
        老用户
        编写于 最后由 编辑
        #3

        @terry 懂了,感谢锤哥,另外,提个小建议,好像在设置里设置账号昵称在论坛中没什么作用,之前发帖的用户名还是google的ID,直接大名出来了有点社死XD。

        1 条回复 最后回复
        0
        • terryT 离线
          terryT 离线
          terry
          编写于 最后由 编辑
          #4

          可以修改资料名,你自己研究下,我确定可以。

          油管:https://www.youtube.com/@抡锤者

          1 条回复 最后回复
          0
          • D 离线
            D 离线
            Daniel
            编写于 最后由 编辑
            #5

            我买了4090 48G满血版,分了24期压力不大,可惜pro 6000不能分12或24期,要不然我就上pro6000了

            terryT 1 条回复 最后回复
            0
            • D Daniel

              我买了4090 48G满血版,分了24期压力不大,可惜pro 6000不能分12或24期,要不然我就上pro6000了

              terryT 离线
              terryT 离线
              terry
              编写于 最后由 编辑
              #6

              @Daniel 挺好的,买了就不要考虑这样那样,没有完美的硬件,这卡足够你用了。

              油管:https://www.youtube.com/@抡锤者

              D 1 条回复 最后回复
              1
              • terryT terry

                @王一民 4090 48G或者RTX Pro6000,有钱就上6000,一步到位,是有性能过剩的嫌疑,这是事实,但5090确实有显存不够用的时候。你就算买RTX Pro6000,也最好不要同时用它跑模型和生图,因为抢资源你不好控制。也可以卖一个32G的4080S搭配5090或者RTX pro5000.

                benton yiB 离线
                benton yiB 离线
                benton yi
                编写于 最后由 benton yi 编辑
                #7

                @terry 个人认为与其称之为“性能过剩”的说法,不如还是“和需求不匹配”来的恰当。在这里想较个真哈,纯粹是阐述一下剖析底层需求的逻辑方法,如果能帮到硬件选型的朋友也算歪打正着了:
                1,假如像之前想买双DGX Spark的老哥说主要用来跑deepseek-v4-flash辅助写作,那么他需求的吐字速度就是比人眼阅读速度的极限快个2倍就行,因为他是真的要亲自来阅读模型输出的每个字的。他真正迫切的是VRAM要大到能装下聪明(大容量)的脑子,而50tokens/s和400tokens/s对老哥来说其实没有任何差异(心理上更爽带来的提升不算,没有实质命中需求)。
                2,举个自己的例子,我自己跑文生图/图生图是依赖comfyUI工作流(ERNIE或者Qwen-Image)的,通常在草稿阶段需要我根据老婆口述的模糊设计,自己写提示词让工作流生成800x800的样稿,然后给她过目再口述怎么改,我再改提示词如此往复,直到老婆大人满意定稿,我再输出高清图或者作为视频的关键帧再去制作视频。这个改稿的过程少则10几次,多则三四十次,偶尔途中可能还会推翻设计。那么20多秒出图就一定比1分钟出图更有效率,每一秒的提升在我这都是实实在在的。
                3,用来驱动Hermes跑定时任务or处理日杂事务,驱动claude code用来氛围开发或者像我作为操作Linux的中间层(我自己接触Linux起步较晚并不熟练,cc作为一根“Linux拐杖”简直深得我心,非常满意)。这类智能体会根据你布置给它的任务,从它自身的Harness里按范式一步一步尝试解决,虽然是会越来越聪明但那是在至少以周甚至月为尺度的多次复用情况下的。你临时给一个任务平均它就是要尝试10几次甚至二三十次才能搞定的,这种情况下IT(指令遵循)大模型输出的绝大部分内容都不需要你来阅读,纯属Agent<=>ITLLm之间的交互,你就坐等一个成功or失败的结果。这时候不论是prefill(LLM读)还是decode(LLM写),信我的你一定是希望越快越好,你不会希望给claude code说一句“按照上次的方式再重装一次SGLang框架”,1分钟快到了他才刚刚找到之前的memory开始读skills,你一定会Ctrl+C了自己来的。

                情况1就是算力有个保证超过阅读速度的门槛过了就行,往上看VRAM能够到哪个模型就花多少钱,是DGX还是MacStudioUltra256G,甚至10多个收一台512G的跑671B也随你喜欢;
                情况2和3就是Vram有个门槛过了就行,比如只跑qwen3.6-27b-q4_K_M@128kContext,但是速度能跑多快给我跑多快,你就挑大于22G显存(举个例子没具体算)的预算内的最好的gpu就行,能折腾想省钱就amd,不想折腾就nvidia;

                大概率不会跑偏。

                terryT 1 条回复 最后回复
                2
                • terryT terry

                  @Daniel 挺好的,买了就不要考虑这样那样,没有完美的硬件,这卡足够你用了。

                  D 离线
                  D 离线
                  Daniel
                  编写于 最后由 编辑
                  #8
                  此主題已被删除!
                  1 条回复 最后回复
                  0
                  • benton yiB benton yi

                    @terry 个人认为与其称之为“性能过剩”的说法,不如还是“和需求不匹配”来的恰当。在这里想较个真哈,纯粹是阐述一下剖析底层需求的逻辑方法,如果能帮到硬件选型的朋友也算歪打正着了:
                    1,假如像之前想买双DGX Spark的老哥说主要用来跑deepseek-v4-flash辅助写作,那么他需求的吐字速度就是比人眼阅读速度的极限快个2倍就行,因为他是真的要亲自来阅读模型输出的每个字的。他真正迫切的是VRAM要大到能装下聪明(大容量)的脑子,而50tokens/s和400tokens/s对老哥来说其实没有任何差异(心理上更爽带来的提升不算,没有实质命中需求)。
                    2,举个自己的例子,我自己跑文生图/图生图是依赖comfyUI工作流(ERNIE或者Qwen-Image)的,通常在草稿阶段需要我根据老婆口述的模糊设计,自己写提示词让工作流生成800x800的样稿,然后给她过目再口述怎么改,我再改提示词如此往复,直到老婆大人满意定稿,我再输出高清图或者作为视频的关键帧再去制作视频。这个改稿的过程少则10几次,多则三四十次,偶尔途中可能还会推翻设计。那么20多秒出图就一定比1分钟出图更有效率,每一秒的提升在我这都是实实在在的。
                    3,用来驱动Hermes跑定时任务or处理日杂事务,驱动claude code用来氛围开发或者像我作为操作Linux的中间层(我自己接触Linux起步较晚并不熟练,cc作为一根“Linux拐杖”简直深得我心,非常满意)。这类智能体会根据你布置给它的任务,从它自身的Harness里按范式一步一步尝试解决,虽然是会越来越聪明但那是在至少以周甚至月为尺度的多次复用情况下的。你临时给一个任务平均它就是要尝试10几次甚至二三十次才能搞定的,这种情况下IT(指令遵循)大模型输出的绝大部分内容都不需要你来阅读,纯属Agent<=>ITLLm之间的交互,你就坐等一个成功or失败的结果。这时候不论是prefill(LLM读)还是decode(LLM写),信我的你一定是希望越快越好,你不会希望给claude code说一句“按照上次的方式再重装一次SGLang框架”,1分钟快到了他才刚刚找到之前的memory开始读skills,你一定会Ctrl+C了自己来的。

                    情况1就是算力有个保证超过阅读速度的门槛过了就行,往上看VRAM能够到哪个模型就花多少钱,是DGX还是MacStudioUltra256G,甚至10多个收一台512G的跑671B也随你喜欢;
                    情况2和3就是Vram有个门槛过了就行,比如只跑qwen3.6-27b-q4_K_M@128kContext,但是速度能跑多快给我跑多快,你就挑大于22G显存(举个例子没具体算)的预算内的最好的gpu就行,能折腾想省钱就amd,不想折腾就nvidia;

                    大概率不会跑偏。

                    terryT 离线
                    terryT 离线
                    terry
                    编写于 最后由 编辑
                    #9

                    @benton-yi 很好的分享,赞同👍

                    油管:https://www.youtube.com/@抡锤者

                    1 条回复 最后回复
                    0
                    • ? 离线
                      ? 离线
                      老用户
                      编写于 最后由 老用户 编辑
                      #10

                      我目前在用5090,我觉得5090挺鸡肋的,32G显存就跟要饭的一样,有一顿没一顿~
                      GPU本身肯定是很不错的,就是显存太少了,你买这块的话模型的选择就很局限了~
                      Qwen3.6-27B,死活弄不上SGLang,还在努力中。。。(但怕弄上了也跑不稳)
                      这块卡如果是要玩Hermes Agent,像我就是养马~那要Qwen稳定输出只能选3.5-9B或3-14B,
                      3.5-9B是多模态,模型载入后还有足够显存留给KV,不然你跟小马子聊不了多久就OOM了~
                      3-14B是纯文字,其他模态你就要Aux去其他云API了~只能是这样了~这是我目前的经验~

                      terryT A 2 条回复 最后回复
                      0
                      • ? 老用户

                        我目前在用5090,我觉得5090挺鸡肋的,32G显存就跟要饭的一样,有一顿没一顿~
                        GPU本身肯定是很不错的,就是显存太少了,你买这块的话模型的选择就很局限了~
                        Qwen3.6-27B,死活弄不上SGLang,还在努力中。。。(但怕弄上了也跑不稳)
                        这块卡如果是要玩Hermes Agent,像我就是养马~那要Qwen稳定输出只能选3.5-9B或3-14B,
                        3.5-9B是多模态,模型载入后还有足够显存留给KV,不然你跟小马子聊不了多久就OOM了~
                        3-14B是纯文字,其他模态你就要Aux去其他云API了~只能是这样了~这是我目前的经验~

                        terryT 离线
                        terryT 离线
                        terry
                        编写于 最后由 terry 编辑
                        #11

                        @Trypt-Wang 它很快啊,32G确实有时候没有48G爽,但是它可以战未来,可以改大显存啊😂 你养马用llama.cpp vllm 或者lucebox就可以了,27b 5090能玩到飞起,飞到你难以想象。不用sg-lang,sg-lang是版本地狱,论坛有帖子讲过选什么版本,时间比较久了,你认真找下,它对qwen3.6的支持很不好。

                        油管:https://www.youtube.com/@抡锤者

                        ? 1 条回复 最后回复
                        0
                        • terryT terry

                          @Trypt-Wang 它很快啊,32G确实有时候没有48G爽,但是它可以战未来,可以改大显存啊😂 你养马用llama.cpp vllm 或者lucebox就可以了,27b 5090能玩到飞起,飞到你难以想象。不用sg-lang,sg-lang是版本地狱,论坛有帖子讲过选什么版本,时间比较久了,你认真找下,它对qwen3.6的支持很不好。

                          ? 离线
                          ? 离线
                          老用户
                          编写于 最后由 编辑
                          #12

                          @terry 那我得找找论坛帖子,我今天第一天上你的论坛~
                          但27B量化4Bit后加载完也只剩下32K+的上下文,马跑不动呢。。。
                          小马说要至少64K才跑的动。。。我目前碰到的状况~
                          我再爬爬文吧~感谢~

                          terryT 1 条回复 最后回复
                          0
                          • ? 老用户

                            @terry 那我得找找论坛帖子,我今天第一天上你的论坛~
                            但27B量化4Bit后加载完也只剩下32K+的上下文,马跑不动呢。。。
                            小马说要至少64K才跑的动。。。我目前碰到的状况~
                            我再爬爬文吧~感谢~

                            terryT 离线
                            terryT 离线
                            terry
                            编写于 最后由 编辑
                            #13

                            @Trypt-Wang 1,你不要折腾27b上sg-lang了,2,用llama.cpp 或者lucebox:
                            https://lcz.me/topic/100/7900xtx-llama.cpp-qwen3.6-27b-turboquant-mtp-测试结果分享
                            https://lcz.me/topic/202/lucebox-dflash-pflash-编译与部署指南-qwen3.6-27b-方便抄作业-linux

                            这两个帖子是给AMD显卡用的,但是里面提到的技术都是N卡能用的,你问下AI,让你学会配置。

                            3,如果你觉得麻烦,下载LMStudio,让AI教你设置,使用Qwen3.6 27b Q4KM模型,在UI界面里可以下载,开启Q8 KV量化,设置上下文为256k,保证让你爽飞,这不是最优方案,但是5090也不需要什么优化。

                            油管:https://www.youtube.com/@抡锤者

                            ? 1 条回复 最后回复
                            0
                            • terryT terry

                              @Trypt-Wang 1,你不要折腾27b上sg-lang了,2,用llama.cpp 或者lucebox:
                              https://lcz.me/topic/100/7900xtx-llama.cpp-qwen3.6-27b-turboquant-mtp-测试结果分享
                              https://lcz.me/topic/202/lucebox-dflash-pflash-编译与部署指南-qwen3.6-27b-方便抄作业-linux

                              这两个帖子是给AMD显卡用的,但是里面提到的技术都是N卡能用的,你问下AI,让你学会配置。

                              3,如果你觉得麻烦,下载LMStudio,让AI教你设置,使用Qwen3.6 27b Q4KM模型,在UI界面里可以下载,开启Q8 KV量化,设置上下文为256k,保证让你爽飞,这不是最优方案,但是5090也不需要什么优化。

                              ? 离线
                              ? 离线
                              老用户
                              编写于 最后由 编辑
                              #14

                              @terry 感谢感谢!我不怕麻烦,也不怕折腾~这就拜读一下这两个帖子~

                              1 条回复 最后回复
                              0
                              • ? 老用户

                                我目前在用5090,我觉得5090挺鸡肋的,32G显存就跟要饭的一样,有一顿没一顿~
                                GPU本身肯定是很不错的,就是显存太少了,你买这块的话模型的选择就很局限了~
                                Qwen3.6-27B,死活弄不上SGLang,还在努力中。。。(但怕弄上了也跑不稳)
                                这块卡如果是要玩Hermes Agent,像我就是养马~那要Qwen稳定输出只能选3.5-9B或3-14B,
                                3.5-9B是多模态,模型载入后还有足够显存留给KV,不然你跟小马子聊不了多久就OOM了~
                                3-14B是纯文字,其他模态你就要Aux去其他云API了~只能是这样了~这是我目前的经验~

                                A 离线
                                A 离线
                                airbrush
                                编写于 最后由 编辑
                                #15

                                @Trypt-Wang 我现在是windows环境下搭建的本地模型,3.6-27B-Q5_K_M上下文64k + MiniCPM 视觉 显存占用31GB;3.6-27B-Q5_K_M上下文96k 显存29GB

                                Windows 11 Pro (Build 26200)
                                ├── Ryzen 9 9950X3D · 64GB RAM · RTX 5090 32GB
                                └── WSL2 (Ubuntu 24.04) — vmmemWSL 30.3GB
                                ├── llama.cpp v9294 (CUDA 后端)
                                │ ├── Qwen3.6-27B-Q5_K_M → :8080 (主模型)
                                │ └── MiniCPM-V 2.6-Q3 → :8081 (视觉)
                                ├── Hermes Agent v0.14.0 (Python 3.11.15)

                                RTX 5090: 32 GB 总显存
                                ├── Qwen3.6-27B-Q5_K_M ≈ ~26 GB (模型权重 + KV cache)
                                ├── MiniCPM-V 2.6-Q3 ≈ ~5 GB (模型 + mmproj)
                                └── 剩余 ≈ 468 MB ⚠️ 几乎耗尽

                                我也是刚开始学习弄本地模型,基本就是小白,但是给我最大的感受是显存大才是王道!64k的上下文基本不够用,让AI写了个页面数据看板的小功能,让他改些问题,来回沟通个不了10次就满上下文了,显存大,上下文大才是高效使用的关键!@王一民 另外我也这几天也看了 RTX PRO 6000的工作站版本 这几天好像已经8.5多了吧,7.2没这个价了吧 😢

                                另外我小白 是不是哪些搭建环境配置不太合理,如何搭建会更好些,锤兄给把把脉,感谢!@terry

                                ? 1 条回复 最后回复
                                0
                                • terryT 离线
                                  terryT 离线
                                  terry
                                  编写于 最后由 编辑
                                  #16

                                  3.6-27B-Q5_K_M 换成Q4KM,这个我说了很多次了,另外可以尝试apex版本。

                                  油管:https://www.youtube.com/@抡锤者

                                  A 1 条回复 最后回复
                                  0
                                  • A airbrush

                                    @Trypt-Wang 我现在是windows环境下搭建的本地模型,3.6-27B-Q5_K_M上下文64k + MiniCPM 视觉 显存占用31GB;3.6-27B-Q5_K_M上下文96k 显存29GB

                                    Windows 11 Pro (Build 26200)
                                    ├── Ryzen 9 9950X3D · 64GB RAM · RTX 5090 32GB
                                    └── WSL2 (Ubuntu 24.04) — vmmemWSL 30.3GB
                                    ├── llama.cpp v9294 (CUDA 后端)
                                    │ ├── Qwen3.6-27B-Q5_K_M → :8080 (主模型)
                                    │ └── MiniCPM-V 2.6-Q3 → :8081 (视觉)
                                    ├── Hermes Agent v0.14.0 (Python 3.11.15)

                                    RTX 5090: 32 GB 总显存
                                    ├── Qwen3.6-27B-Q5_K_M ≈ ~26 GB (模型权重 + KV cache)
                                    ├── MiniCPM-V 2.6-Q3 ≈ ~5 GB (模型 + mmproj)
                                    └── 剩余 ≈ 468 MB ⚠️ 几乎耗尽

                                    我也是刚开始学习弄本地模型,基本就是小白,但是给我最大的感受是显存大才是王道!64k的上下文基本不够用,让AI写了个页面数据看板的小功能,让他改些问题,来回沟通个不了10次就满上下文了,显存大,上下文大才是高效使用的关键!@王一民 另外我也这几天也看了 RTX PRO 6000的工作站版本 这几天好像已经8.5多了吧,7.2没这个价了吧 😢

                                    另外我小白 是不是哪些搭建环境配置不太合理,如何搭建会更好些,锤兄给把把脉,感谢!@terry

                                    ? 离线
                                    ? 离线
                                    老用户
                                    编写于 最后由 编辑
                                    #17

                                    @airbrush 哦~我也分享一下:

                                    • Ryzen Threadripper 3970X + 256GB RAM + RTX 5090 32GB + 很多nvme + Ubuntu 24.04 LTS
                                    • MacMini M4 16GB RAM x 2(垃圾东西,只能跑2B之类的耍白痴)

                                    本来只是想养养虾,结果变成天天伺候虾,马一出来我就立刻改养马~马养养觉得数据必须在本地,就开始搞本地模型,前面帮朋友架了个Ryzen 9950X,试试不用显卡也能跑本地模型,有2X t/s吧~但他是Zen5还有AVX512~我的Zen2老古董就必须上显卡了,我这只能买到5090,也就只能先这样了~显存大才是王道,对!64K上下文,马连门都出不去~

                                    我现在正在试着用vllm、lucebox、llama.cpp都跑跑看3.6-27B-Q4,看最多能剩多少kv给小马子,如果上不了256K,那就降低标准跑3.5-9B-FP8,目的是要让马跑的稳跑的顺~

                                    terryT A 2 条回复 最后回复
                                    0
                                    • ? 老用户

                                      @airbrush 哦~我也分享一下:

                                      • Ryzen Threadripper 3970X + 256GB RAM + RTX 5090 32GB + 很多nvme + Ubuntu 24.04 LTS
                                      • MacMini M4 16GB RAM x 2(垃圾东西,只能跑2B之类的耍白痴)

                                      本来只是想养养虾,结果变成天天伺候虾,马一出来我就立刻改养马~马养养觉得数据必须在本地,就开始搞本地模型,前面帮朋友架了个Ryzen 9950X,试试不用显卡也能跑本地模型,有2X t/s吧~但他是Zen5还有AVX512~我的Zen2老古董就必须上显卡了,我这只能买到5090,也就只能先这样了~显存大才是王道,对!64K上下文,马连门都出不去~

                                      我现在正在试着用vllm、lucebox、llama.cpp都跑跑看3.6-27B-Q4,看最多能剩多少kv给小马子,如果上不了256K,那就降低标准跑3.5-9B-FP8,目的是要让马跑的稳跑的顺~

                                      terryT 离线
                                      terryT 离线
                                      terry
                                      编写于 最后由 编辑
                                      #18

                                      @Trypt-Wang 大哥你的卡qwen3.6 27b 256k上下文给你吃满了,怎么会不够呢,速度不需要优化都飞快。肯定是你配置出问题了。qwen3.6 27b q4 km,你直接下载LM studio,KV设置为Q8量化,上下文设置为最大,不做任何优化就行了。

                                      油管:https://www.youtube.com/@抡锤者

                                      1 条回复 最后回复
                                      0
                                      • terryT terry

                                        3.6-27B-Q5_K_M 换成Q4KM,这个我说了很多次了,另外可以尝试apex版本。

                                        A 离线
                                        A 离线
                                        airbrush
                                        编写于 最后由 编辑
                                        #19

                                        @terry 锤兄 你说的Q4KM 是这个https://huggingface.co/unsloth/Qwen3.6-27B-MTP-GGUF/blob/main/Qwen3.6-27B-Q4_K_M.gguf 版本吗?

                                        apex版本 又是哪个版本? 是这个吗 Huihui-Qwen3.6-27B-abliterated-NVFP4-MTP ?

                                        小白 还不太懂😢

                                        terryT 1 条回复 最后回复
                                        0
                                        • ? 老用户

                                          @airbrush 哦~我也分享一下:

                                          • Ryzen Threadripper 3970X + 256GB RAM + RTX 5090 32GB + 很多nvme + Ubuntu 24.04 LTS
                                          • MacMini M4 16GB RAM x 2(垃圾东西,只能跑2B之类的耍白痴)

                                          本来只是想养养虾,结果变成天天伺候虾,马一出来我就立刻改养马~马养养觉得数据必须在本地,就开始搞本地模型,前面帮朋友架了个Ryzen 9950X,试试不用显卡也能跑本地模型,有2X t/s吧~但他是Zen5还有AVX512~我的Zen2老古董就必须上显卡了,我这只能买到5090,也就只能先这样了~显存大才是王道,对!64K上下文,马连门都出不去~

                                          我现在正在试着用vllm、lucebox、llama.cpp都跑跑看3.6-27B-Q4,看最多能剩多少kv给小马子,如果上不了256K,那就降低标准跑3.5-9B-FP8,目的是要让马跑的稳跑的顺~

                                          A 离线
                                          A 离线
                                          airbrush
                                          编写于 最后由 编辑
                                          #20

                                          @Trypt-Wang 5090 32G卡 开不到256k上下文吧,如果搞定了 给分析哦 ~!👍 😊

                                          1 条回复 最后回复
                                          0

                                          你好!看起来您对这段对话很感兴趣,但您还没有一个账号。

                                          厌倦了每次访问都刷到同样的帖子?您注册账号后,您每次返回时都能精准定位到您上次浏览的位置,并可选择接收新回复通知(通过邮件或推送通知)。您还能收藏书签、为帖子顶,向社区成员表达您的欣赏。

                                          有了你的建议,这篇帖子会更精彩哦 💗

                                          注册 登录
                                          回复
                                          • 在新帖中回复
                                          登录后回复
                                          • 从旧到新
                                          • 从新到旧
                                          • 最多赞同


                                          • 登录

                                          • 没有帐号? 注册

                                          • 登录或注册以进行搜索。
                                          • 第一个帖子
                                            最后一个帖子
                                          0
                                          • 版块
                                          • 最新
                                          • 标签
                                          • 热门
                                          • 用户
                                          • 群组