跳转至内容
  • 版块
  • 最新
  • 标签
  • 热门
  • 用户
  • 群组
皮肤
  • 浅色
  • Brite
  • Cerulean
  • Cosmo
  • Flatly
  • Journal
  • Litera
  • Lumen
  • Lux
  • Materia
  • Minty
  • Morph
  • Pulse
  • Sandstone
  • Simplex
  • Sketchy
  • Spacelab
  • United
  • Yeti
  • Zephyr
  • 深色
  • Cyborg
  • Darkly
  • Quartz
  • Slate
  • Solar
  • Superhero
  • Vapor

  • 默认(不使用皮肤)
  • 不使用皮肤
折叠
品牌标识

抡锤者

  1. 主页
  2. LLM讨论区
  3. 本地单显卡10G显存部署DeepSeek相关资源

本地单显卡10G显存部署DeepSeek相关资源

已定时 已固定 已锁定 已移动 LLM讨论区
8 帖子 5 发布者 516 浏览
  • 从旧到新
  • 从新到旧
  • 最多赞同
回复
  • 在新帖中回复
登录后回复
此主题已被删除。只有拥有主题管理权限的用户可以查看。
  • terryT 离线
    terryT 离线
    terry
    编写于 最后由 编辑
    #1

    首先说下,相关原理,我在视频里有详细讲解:https://www.youtube.com/watch?v=ux9z-Bqhzps

    推理框架Fastllm:https://github.com/ztxz16/fastllm 4.3k星,到了这个级别就不是玩具了,是可实用的。
    模型下载地址:https://modelscope.cn/models/huangyuyang/DeepSeek-V4-Flash-FP8-Q4 这是把原版FP4 FP8混合权重的FP4部分换成了INT4,因为这样有利于CPU AVX-512指令集反量化权重,官方原版FP8模型,FP4 FP8混合模型都能跑,但是速度没Q4转译的快。

    关于速度和推荐配置,大家可以去官网推荐的群里去询问相关信息,我这边有朋友实测9004配置没问题,能跑起来。所以第一个视频表述有错误,我删除了修正表述重发,防止误导大家。

    近期我没计划测试这玩意,不过如果对1M上下文有刚需的情况下,我会尝试。

    1 条回复 最后回复
    0
    • Z 离线
      Z 离线
      zhiqing
      已封禁
      编写于 最后由 编辑
      #2

      和ktransformers类似权重都加载到内存里吧

      1 条回复 最后回复
      0
      • terryT 离线
        terryT 离线
        terry
        编写于 最后由 编辑
        #3

        这玩意还是要用显卡推理,原理应该差不多,但它比KT效果更好,目前就它能做到v4丝滑

        P 1 条回复 最后回复
        0
        • 墙内人墙 离线
          墙内人墙 离线
          墙内人
          编写于 最后由 编辑
          #4

          配件就多到头皮发麻

          一个懒人

          1 条回复 最后回复
          0
          • terryT terry

            这玩意还是要用显卡推理,原理应该差不多,但它比KT效果更好,目前就它能做到v4丝滑

            P 离线
            P 离线
            pilipala
            编写于 最后由 编辑
            #5

            @terry 锤哥,我在组双4090D的机器的时候碰到个问题,电源必须是1600W朝上的 16A的,插座是10A的,用转接头一直满载跑会不会有火灾隐患,你那台4090D+7900XTX是怎么解决的呢

            terryT 1 条回复 最后回复
            0
            • S 离线
              S 离线
              stakira
              编写于 最后由 stakira 编辑
              #6

              玩这个其实没有多大意义的吧。decode速度是还可以,prefill速度感人,看起来是不过百。想象一下读个system prompt几十秒,读个代码文件好几分钟,读个网页好几分钟,根本没法用吧。

              terryT 1 条回复 最后回复
              0
              • P pilipala

                @terry 锤哥,我在组双4090D的机器的时候碰到个问题,电源必须是1600W朝上的 16A的,插座是10A的,用转接头一直满载跑会不会有火灾隐患,你那台4090D+7900XTX是怎么解决的呢

                terryT 离线
                terryT 离线
                terry
                编写于 最后由 编辑
                #7

                @pilipala 我1200w电源,一直跑没啥问题。我是xtx最高300w,驱动限制了这么多,然后4090d 425w,一般在400w以内,其它的消耗不超过150w。你的两个4090d满载加起来850w,其他的加起来150w。1000w到顶了。你上1200w也就够了。电源没那么玄乎,买大品牌的全模组就好。

                1 条回复 最后回复
                0
                • S stakira

                  玩这个其实没有多大意义的吧。decode速度是还可以,prefill速度感人,看起来是不过百。想象一下读个system prompt几十秒,读个代码文件好几分钟,读个网页好几分钟,根本没法用吧。

                  terryT 离线
                  terryT 离线
                  terry
                  编写于 最后由 编辑
                  #8

                  @stakira 参考苹果,一个鸟样

                  1 条回复 最后回复
                  0

                  你好!看起来您对这段对话很感兴趣,但您还没有一个账号。

                  厌倦了每次访问都刷到同样的帖子?您注册账号后,您每次返回时都能精准定位到您上次浏览的位置,并可选择接收新回复通知(通过邮件或推送通知)。您还能收藏书签、为帖子顶,向社区成员表达您的欣赏。

                  有了你的建议,这篇帖子会更精彩哦 💗

                  注册 登录
                  回复
                  • 在新帖中回复
                  登录后回复
                  • 从旧到新
                  • 从新到旧
                  • 最多赞同


                  • 登录

                  • 没有帐号? 注册

                  • 登录或注册以进行搜索。
                  • 第一个帖子
                    最后一个帖子
                  0
                  • 版块
                  • 最新
                  • 标签
                  • 热门
                  • 用户
                  • 群组