跳转至内容
  • 版块
  • 最新
  • 标签
  • 热门
  • 用户
  • 群组
皮肤
  • 浅色
  • Brite
  • Cerulean
  • Cosmo
  • Flatly
  • Journal
  • Litera
  • Lumen
  • Lux
  • Materia
  • Minty
  • Morph
  • Pulse
  • Sandstone
  • Simplex
  • Sketchy
  • Spacelab
  • United
  • Yeti
  • Zephyr
  • 深色
  • Cyborg
  • Darkly
  • Quartz
  • Slate
  • Solar
  • Superhero
  • Vapor

  • 默认(不使用皮肤)
  • 不使用皮肤
折叠
品牌标识

抡锤者

  1. 主页
  2. LLM讨论区
  3. 请教你们都是怎么解决上下文总是满了的问题?

请教你们都是怎么解决上下文总是满了的问题?

已定时 已固定 已锁定 已移动 LLM讨论区
9 帖子 6 发布者 121 浏览 1 关注中
  • 从旧到新
  • 从新到旧
  • 最多赞同
回复
  • 在新帖中回复
登录后回复
此主题已被删除。只有拥有主题管理权限的用户可以查看。
  • V 离线
    V 离线
    vanvj
    编写于 最后由 terry 编辑
    #1

    各位大神介绍一下经验,我的折腾如下:
    1、修改rag大小:
    文件 之前 现在 上下文占用
    ───────── ────────── ────────── ─────────────
    MEMORY.md 2,200 字符 4,400 字符 ~1,600 tokens
    USER.md 1,375 字符 2,750 字符 ~1,000 tokens
    2、搞了个Watchdog 核心:

    • ✅ 进程存活检测                                                                                                                                                     
    • ✅ Dashboard 端口检测                                                                                                                                               
    • ✅ Worker 数量监测                                                                                                                                                  
    • ✅ 会话数量监测                                                                                                                                                     
                                                                                                                                                                          
    上下文水位检测当前显示"未知"是因为没有活跃对话。等你或 另外一台计算机上有活跃 session 时,它会从日志里读到 context_pct 数据。如果发现水位 > 60% 就会自动保存。   
    

    3、 手段 做什么
    ─────────────────────── ────────────────────────────
    \ head -100``
    save-state.py + /new 存快照开新会话 ✅
    anti-loop skill 避免重复失败撑爆 ✅
    /compress 主动压缩上下文
    一个 session 只做一件事 从源头控制 ✅
    ————————
    但还是会有报错的时候,如果解决不了,这就没法长时间跑批处理,要一直盯着。大神们有没有办法,请教。

    1 条回复 最后回复
    0
    • V 离线
      V 离线
      vanvj
      编写于 最后由 编辑
      #2

      │完整配置一览:

      硬件                                                                                                                                                                  
                                                                                                                                                                            
        项目   规格                                                                                                                                                         
        ─────  ───────────────────────────────────                                                                                                                          
        CPU    Intel i5-12600KF                                                                                                                                             
        GPU    AMD Radeon RX 7900 XTX(24GB VRAM)                                                                                                                          
        内存   30GB(9.3GB 在用,21GB 可用)                                                                                                                                
        硬盘   937GB NVMe(258GB 已用,29%)                                                                                                                                
        系统   Ubuntu 26.04,内核 7.0.0                                                                                                                                     
        有线   192.168.2.120(enp5s0)                                                                                                                                      
        Wi-Fi  192.168.200.107(wlp6s0,备用)                                                                                                                              
                                                                                                                                                                            
      模型推理                                                                                                                                                              
                                                                                                                                                                            
        项目      值                                                                                                                                                        
        ────────  ───────────────────────────────────────                                                                                                                   
        模型      Qwen3.6-27B-MTP Q4_K_M                                                                                                                                    
        上下文    98,304 tokens                                                                                                                                             
        上下文    98,304 tokens                                                                                                                                             
        推理      MTP draft 模式(最大 2 个 draft token)                                                                                                                   
        速度      ~45 tok/s                                                                                                                                                 
        GPU       全层 offload(-ngl 99)                                                                                                                                   
        KV cache  q4_0(省显存)                                                                                                                                            
        模板      temp 0.4、top-p 0.95                                                                                                                                      
                                                                                                                                                                            
      Hermes 配置                                                                                                                                                           
                                                                                                                                                                            
        项目         值                                                                                                                                                     
        ───────────  ──────────────────────────────────                                                                                                                     
        版本         v0.17.0(~/bin/hugo v0.163.3)                                                                                                                         
        最大轮次     50                                                                                                                                                     
        压缩         开启,50% 阈值 → 压缩到 40%                                                                                                                            
        MEMORY 上限  4,400 字符                                                                                                                                             
        USER 上限    2,750 字符                                                                                                                                             
        SOUL.md      31 行(防死循环 + skill 加载规则)                                                                                                                     
        Dashboard    :9119,auth: basic(vanvj)                                                                                                                            
        fallback     DeepSeek V4 Flash                                                                                                                                      
                                                                                                                                                                            
      部署项目(~/project/)                                                                                                                                                
                                                                                                                                                                            
        项目       说明                                                                                                                                                     
        ─────────  ─────────────────────                                                                                                                                    
        monkvan    神话传说(hugo-book)                                                                                                                                    
        monkvancn  中国神话                                                                                                                                                 
        oldvan     老梵博客(LoveIt)                                                                                                                                       
        wellness   养生站(FixIt)                                                                                                                                          
                                                                                                                                                                            
      当前会话状态                                                                                                                                                          
                                                                                                                                                                            
        项目             值                                                                                                                                                 
        ───────────────  ──────────────────────────────                                                                                                                     
        活跃会话         1                                                                                                                                                  
        当前水位         38,204 / 98,304 tokens(39%)                                                                                                                      
        缓存命中         58%                                                                                                                                                
        Watchdog         每 5 分钟检测,>60% 自动存快照                                                                                                                     
        Save-state cron  每 10 分钟自动备份
      
      1 条回复 最后回复
      0
      • imbiplaza ASUSI 离线
        imbiplaza ASUSI 离线
        imbiplaza ASUS
        技术大牛 劳动模范
        编写于 最后由 编辑
        #3

        留名学习。。。。

        1 条回复 最后回复
        0
        • 5 在线
          5 在线
          566656661
          超凡大师
          编写于 最后由 编辑
          #4

          Hermes自己有一個compaction_threshold的設定, 我自己平時是習慣調低點讓上下文壓縮的時間點推前

          然後我平時在Cron jobs跟Skills會要求Hermes在過程當盡可能將重要點寫成MD, 然後Compress之後再叫Hermes自己按需求拿MD繼續工作

          基本上上下文限制這個沒辦法避免, 人在的時候盡可能觸發Compression, 人不在的時候就只能依賴Auto Compress

          V 1 条回复 最后回复
          1
          • 5 566656661

            Hermes自己有一個compaction_threshold的設定, 我自己平時是習慣調低點讓上下文壓縮的時間點推前

            然後我平時在Cron jobs跟Skills會要求Hermes在過程當盡可能將重要點寫成MD, 然後Compress之後再叫Hermes自己按需求拿MD繼續工作

            基本上上下文限制這個沒辦法避免, 人在的時候盡可能觸發Compression, 人不在的時候就只能依賴Auto Compress

            V 离线
            V 离线
            vanvj
            编写于 最后由 编辑
            #5

            @566656661 确实,我也认命了,这个最佳解是提高硬件配置,要么就是把cache进ram,用速度换上下文的容量。

            1 条回复 最后回复
            0
            • M 离线
              M 离线
              mark
              超凡大师
              编写于 最后由 编辑
              #6

              32G内存 稍微, 有点小了. 64G吧

              S 1 条回复 最后回复
              1
              • M mark

                32G内存 稍微, 有点小了. 64G吧

                S 离线
                S 离线
                sarcoma
                编写于 最后由 编辑
                #7

                @mark 纯GPU推理,需要这么大的RAM么?好奇😯

                1 条回复 最后回复
                0
                • M 离线
                  M 离线
                  mark
                  超凡大师
                  编写于 最后由 编辑
                  #8

                  kv cache 知道吗?

                  1 条回复 最后回复
                  1
                  • 怪 离线
                    怪 离线
                    怪叔叔
                    编写于 最后由 编辑
                    #9

                    还会有同一个session下命令调用次数得限制吧。不过这个配置文件里可以改大

                    1 条回复 最后回复
                    0

                    你好!看起来您对这段对话很感兴趣,但您还没有一个账号。

                    厌倦了每次访问都刷到同样的帖子?您注册账号后,您每次返回时都能精准定位到您上次浏览的位置,并可选择接收新回复通知(通过邮件或推送通知)。您还能收藏书签、为帖子顶,向社区成员表达您的欣赏。

                    有了你的建议,这篇帖子会更精彩哦 💗

                    注册 登录
                    回复
                    • 在新帖中回复
                    登录后回复
                    • 从旧到新
                    • 从新到旧
                    • 最多赞同


                    • 登录

                    • 没有帐号? 注册

                    • 第一个帖子
                      最后一个帖子
                    0
                    • 版块
                    • 最新
                    • 标签
                    • 热门
                    • 用户
                    • 群组