跳转至内容
  • 版块
  • 最新
  • 标签
  • 热门
  • 用户
  • 群组
皮肤
  • 浅色
  • Brite
  • Cerulean
  • Cosmo
  • Flatly
  • Journal
  • Litera
  • Lumen
  • Lux
  • Materia
  • Minty
  • Morph
  • Pulse
  • Sandstone
  • Simplex
  • Sketchy
  • Spacelab
  • United
  • Yeti
  • Zephyr
  • 深色
  • Cyborg
  • Darkly
  • Quartz
  • Slate
  • Solar
  • Superhero
  • Vapor

  • 默认(不使用皮肤)
  • 不使用皮肤
折叠
品牌标识

抡锤者

  1. 主页
  2. LLM讨论区
  3. 8G显存 篇。RTX3070 8G显存。成功跑 Qwen3.6-35B 多模态AI大模型

8G显存 篇。RTX3070 8G显存。成功跑 Qwen3.6-35B 多模态AI大模型

已定时 已固定 已锁定 已移动 LLM讨论区
14 帖子 5 发布者 403 浏览
  • 从旧到新
  • 从新到旧
  • 最多赞同
回复
  • 在新帖中回复
登录后回复
此主题已被删除。只有拥有主题管理权限的用户可以查看。
  • williamlouisW 离线
    williamlouisW 离线
    williamlouis
    编写于 最后由 williamlouis 编辑
    #1

    其实我早就发了这个版本。但是没人关注。是给谁的评论回复忘记了。
    老特新的视频我看了。很感动。这老东西也会服软。
    出个帖子表示对老特的认同。(他服软是对的。嘎嘎!)

    开篇:
    测试平台:CPU:i7-12700
    GPU:RTX 3070 8GB
    RAM:32G × 2
    系统:Windows 11
    推理框架:llama.cpp CUDA 12.4 通过 llama.cpp 的 CPU Offload 和 MoE 优化,可以跑起来 Qwen Qwen3.6-35B-A3B 模型。
    原理:Qwen3.6-35B-A3B:混合模型。35B 总参数,每次只激活约 3B。GPU 不需要一次性加载完整 35B ,再结合 llama.cpp 的:CPU Offload ;就能实现:GPU 跑注意力层、RAM 跑专家层。这也是:RTX3070 8G 成功运行 35B 的核心原因!
    实现目标:
    支持长上下文
    支持 Flash Attention
    支持多模态(视觉)
    支持本地网页 UI
    部署:
    1、下载 llama.cpp 【Github下载】
    2、安装显卡驱动,3070 N卡选择 CUDA 13.1
    https://developer.nvidia.com/cuda-13-1-0-download-archive
    3、下载模型
    本次使用模型:Qwen3.6-35B-A3B-UD-Q4_K_M.gguf
    量化格式:Q4_K_M
    这是目前:精度、显存、速度 综合平衡最好的格式之一。
    【Huggingface下载】
    Qwen3.6 多模态模型:必须搭配 mmproj(示例:mmproj-BF16.gguf)
    启动配置参数:
    @echo off
    chcp 65001 >nul
    cd /d C:\Users\LINGDU\Desktop\llama-b9196-bin-win-cuda-12.4-x64

    llama-server.exe ^
    -m "models\Qwen3.6-35B-A3B-UD-Q4_K_M.gguf" ^
    --mmproj "models\mmproj-BF16.gguf" ^
    -ngl 99 ^
    --n-cpu-moe 999 ^
    --flash-attn on ^
    --jinja ^
    -c 32768 ^
    -t 12 ^
    -b 512 ^
    -ub 128 ^
    --cache-type-k q4_0 ^
    --cache-type-v q4_0 ^
    --mlock ^
    --host 127.0.0.1 ^
    --port 8080

    pause

    保存*.bat 编辑后运行
    *\注意将上面的llama.cpp的存放路径改成你自己的,因为我是放在桌面上的,所以路径是:C:\Users\LINGDU\Desktop\llama-b9196-bin-win-cuda-12.4-x64 务必改成你自己的路径!
    部署后 127.0.0.1:8080 访问。
    c98852fa-c816-45d2-98fc-0f50feee5ec0-image.jpeg
    d4db5368-8c7f-4e38-825d-fbd6e8b609dd-image.jpeg
    6b19233c-d402-4675-a946-08e1164dee45-image.jpeg
    53f30ee2-714a-4854-aabc-b3ac5b1b7fc0-image.jpeg
    测试:编码可以跑。能处理图片。其他的拉稀中。
    总结:学习机小拉拉一枚。

    个人主页:xlkj.org Telegram https://t.me/xlkjorg

    1 条回复 最后回复
    2
    • E 离线
      E 离线
      ezios
      编写于 最后由 编辑
      #2

      👍,你试试我的帖子里面的apex mtp模型,速度还能提升

      williamlouisW 1 条回复 最后回复
      0
      • E ezios

        👍,你试试我的帖子里面的apex mtp模型,速度还能提升

        williamlouisW 离线
        williamlouisW 离线
        williamlouis
        编写于 最后由 williamlouis 编辑
        #3

        @ezios 我不需要学习机的配置。就是发着玩的。这个小拉拉 实际应用没有任何意义。或者直白点就是 8G 就是没什么意义。我的任意项目它都是跑不了的。

        个人主页:xlkj.org Telegram https://t.me/xlkjorg

        1 条回复 最后回复
        0
        • frank leeF 离线
          frank leeF 离线
          frank lee
          编写于 最后由 编辑
          #4

          你这个和零度解说配置一样

          williamlouisW 1 条回复 最后回复
          0
          • terryT terry 固定了该主题
          • frank leeF frank lee

            你这个和零度解说配置一样

            williamlouisW 离线
            williamlouisW 离线
            williamlouis
            编写于 最后由 编辑
            #5

            @frank-lee 是的。我又没有Windows。

            个人主页:xlkj.org Telegram https://t.me/xlkjorg

            1 条回复 最后回复
            0
            • 神器说神 离线
              神器说神 离线
              神器说
              编写于 最后由 神器说 编辑
              #6

              我在4070的8g显存笔记本上成功跑起来了 35t/s的速度,效果还可以。关键是可以搭配hermes成功执行多种任务。
              68d6838e-432d-4077-a6f8-9a9dfe028906-image.jpeg
              自己稍微调整了一下启动的参数,在32g内存里面较为流畅的运行了。

              frank leeF A 2 条回复 最后回复
              1
              • 神器说神 神器说

                我在4070的8g显存笔记本上成功跑起来了 35t/s的速度,效果还可以。关键是可以搭配hermes成功执行多种任务。
                68d6838e-432d-4077-a6f8-9a9dfe028906-image.jpeg
                自己稍微调整了一下启动的参数,在32g内存里面较为流畅的运行了。

                frank leeF 离线
                frank leeF 离线
                frank lee
                编写于 最后由 编辑
                #7

                @神器说 有点好奇你们拿这些模型做什么事情。我只能用来提醒我今天干什么,感觉挺笨的,什么都做不了

                神器说神 1 条回复 最后回复
                0
                • frank leeF frank lee

                  @神器说 有点好奇你们拿这些模型做什么事情。我只能用来提醒我今天干什么,感觉挺笨的,什么都做不了

                  神器说神 离线
                  神器说神 离线
                  神器说
                  编写于 最后由 编辑
                  #8

                  @frank-lee 需要做一些动画类型的东西,自从有了做html的东西之后,可以拓展的事情很多了。

                  frank leeF 1 条回复 最后回复
                  0
                  • 神器说神 神器说

                    @frank-lee 需要做一些动画类型的东西,自从有了做html的东西之后,可以拓展的事情很多了。

                    frank leeF 离线
                    frank leeF 离线
                    frank lee
                    编写于 最后由 编辑
                    #9

                    @神器说 能不能具体说一下或者发个帖子。我看别人用codex 已经实现审批画面有无畸形了

                    神器说神 1 条回复 最后回复
                    0
                    • frank leeF frank lee

                      @神器说 能不能具体说一下或者发个帖子。我看别人用codex 已经实现审批画面有无畸形了

                      神器说神 离线
                      神器说神 离线
                      神器说
                      编写于 最后由 编辑
                      #10

                      @frank-lee 比如说remotion的项目,我之前用ae做mg动画,现在有了这个skill,就可以帮我自己制作MG动画,然后我又可以把这些东西放到视频里,极大节约了制作的时间。我刚才说的html,是最近流行取代md的声音,比如你可以找一下归藏他们的技能,都做得特别好看。关键词html-anything。

                      1 条回复 最后回复
                      0
                      • frank leeF 离线
                        frank leeF 离线
                        frank lee
                        编写于 最后由 编辑
                        #11

                        牛逼啊牛逼,我本来想的也是用这个A一那些去做沙雕动漫的,本来想着是用codex去做,你这样说成本就很低了。

                        1 条回复 最后回复
                        0
                        • williamlouisW 离线
                          williamlouisW 离线
                          williamlouis
                          编写于 最后由 编辑
                          #12

                          任何结构不直接分享给你一键包给大家的目的。希望大家通过我们的分享能自我搭建复合自己的结构或框架。我分享的信息最重要的部分其实是能辅助你搭建的 ai 算力。目前看 Gmini。ChatGPT 5.5 。cluade 都可以。我个人 尝试 deeskeep pro 也是可以的。只是参数 比较三个外媒大哥 稍逊。

                          个人主页:xlkj.org Telegram https://t.me/xlkjorg

                          1 条回复 最后回复
                          0
                          • 神器说神 神器说

                            我在4070的8g显存笔记本上成功跑起来了 35t/s的速度,效果还可以。关键是可以搭配hermes成功执行多种任务。
                            68d6838e-432d-4077-a6f8-9a9dfe028906-image.jpeg
                            自己稍微调整了一下启动的参数,在32g内存里面较为流畅的运行了。

                            A 离线
                            A 离线
                            apple
                            编写于 最后由 编辑
                            #13

                            @神器说 居然可以搭配hermes?

                            williamlouisW 1 条回复 最后回复
                            0
                            • 系统 取消固定了该主题
                            • A apple

                              @神器说 居然可以搭配hermes?

                              williamlouisW 离线
                              williamlouisW 离线
                              williamlouis
                              编写于 最后由 编辑
                              #14

                              @apple https://lcz.me/topic/299/hermes-agent-webui-原生-windows-支持-被官方采纳合并代码了./11

                              个人主页:xlkj.org Telegram https://t.me/xlkjorg

                              1 条回复 最后回复
                              0

                              你好!看起来您对这段对话很感兴趣,但您还没有一个账号。

                              厌倦了每次访问都刷到同样的帖子?您注册账号后,您每次返回时都能精准定位到您上次浏览的位置,并可选择接收新回复通知(通过邮件或推送通知)。您还能收藏书签、为帖子顶,向社区成员表达您的欣赏。

                              有了你的建议,这篇帖子会更精彩哦 💗

                              注册 登录
                              回复
                              • 在新帖中回复
                              登录后回复
                              • 从旧到新
                              • 从新到旧
                              • 最多赞同


                              • 登录

                              • 没有帐号? 注册

                              • 登录或注册以进行搜索。
                              • 第一个帖子
                                最后一个帖子
                              0
                              • 版块
                              • 最新
                              • 标签
                              • 热门
                              • 用户
                              • 群组