跳转至内容
  • 版块
  • 最新
  • 标签
  • 热门
  • 用户
  • 群组
皮肤
  • 浅色
  • Brite
  • Cerulean
  • Cosmo
  • Flatly
  • Journal
  • Litera
  • Lumen
  • Lux
  • Materia
  • Minty
  • Morph
  • Pulse
  • Sandstone
  • Simplex
  • Sketchy
  • Spacelab
  • United
  • Yeti
  • Zephyr
  • 深色
  • Cyborg
  • Darkly
  • Quartz
  • Slate
  • Solar
  • Superhero
  • Vapor

  • 默认(不使用皮肤)
  • 不使用皮肤
折叠
品牌标识

抡锤者

  1. 主页
  2. LLM讨论区
  3. 双AI Pro R9700 32g,Qwen 3.6 27b q4 KM q8 KV Ubuntu24 Hermes agent

双AI Pro R9700 32g,Qwen 3.6 27b q4 KM q8 KV Ubuntu24 Hermes agent

已定时 已固定 已锁定 已移动 LLM讨论区
13 帖子 9 发布者 202 浏览 1 关注中
  • 从旧到新
  • 从新到旧
  • 最多赞同
回复
  • 在新帖中回复
登录后回复
此主题已被删除。只有拥有主题管理权限的用户可以查看。
  • B Brian

    先说下感受,256k上下文,速度是真的慢,但是做研究真是很细。

    同时偶然发现在线API虽快,但是比较粗糙,需要驾驭很好才行。

    但是本地Qwen3.6,推理能力极强,工具调用,加上联网检索,最终效果挺好。

    即使是模型和hermes都设置256k上下文,herems还会触发压缩,最终效果还是很够用的。

    折腾了很多,Vllm和sglang搞不定,用了deepseek claude codex都搞不定,不是工具的问题,是我一点都不懂。只会说看看社区有什么成功的方案去尝试(我TM社区是啥都不知道)。

    以下是llama cpp参数。问了AI 256k上下文,就是这个速度,不知道有没有好的优化方法。

    硬件: 双 AMD Radeon AI Pro R9700(各 32GB VRAM)+ Intel Xeon E5-2686 v4

    参数 值 说明
    -m Qwen3.6-27B-Q4_K_M.gguf 标准版模型
    -ngl 99 全部层卸载到 GPU
    -c 262144 262K 上下文(医疗文档长文本需要)
    -np 1 单并行槽(避免 OOM)
    --split-mode layer 双卡按层切分(tensor 模式在 PCIe 瓶颈下更慢)
    --cache-type-k/v q8_0 KV cache 精度,保持质量
    --cache-ram 0 禁用跨请求 prompt cache(规避 crash)
    --no-cache-prompt — 禁用 prompt cache
    --mlock — 锁内存防 swap
    --defrag-thold 0.1 KV cache 碎片整理阈值
    --reasoning off — 关闭 thinking 模式
    -fa on — Flash Attention

    性能基准

    指标 数值
    llama.cpp 版本 b9586
    Decode 速度 ~24 tok/s(MTP版);~24 tok/s(标准版)
    Prefill 速度 ~562 tok/s(MTP版);~21 tok/s(标准版,短 prompt)
    tensor split 测试 19.4 tok/s(PCIe 瓶颈,不如 layer)
    L 离线
    L 离线
    laobenxiong
    劳动模范
    编写于 最后由 laobenxiong 编辑
    #3

    @Brian 说:

    即使是模型和hermes都设置256k上下文,herems还会触发压缩,最终效果还是很够用的

    我现在把压缩关闭了. 首先压缩效果不一定好(我让hermes调deepseek v4 flash做压缩, 发现压缩以后好多信息都丢了), 另外, 压缩以后所有 prefill 要重建, 既花时间, 有没有啥信息含量. 所以干脆disable it. context 快到头了就 /new 一个, hermes自己记住所有的对话, 在新对话里提一下"我们以前/刚刚聊过xxx", 它自己就会从数据库里去找. 我赶脚这个比压缩还靠谱.

    f33371a2-d0b8-424a-b6cf-fb1c8f6e5deb-image.jpeg

    1 条回复 最后回复
    0
    • AGIA 离线
      AGIA 离线
      AGI
      编写于 最后由 编辑
      #4

      为什么还用q4呢?最起码q6起步!

      1 条回复 最后回复
      0
      • terryT terry 固定了该主题
      • terryT 离线
        terryT 离线
        terry
        超级版主
        编写于 最后由 编辑
        #5

        置顶,请大佬解答下,下次上传点截图,方便分析。

        油管:https://www.youtube.com/@抡锤者

        1 条回复 最后回复
        0
        • XiaoteX 离线
          XiaoteX 离线
          Xiaote
          劳动模范
          编写于 最后由 编辑
          #6

          @Brian 关于256K上下文的优化,我补充几点经验:

          1. KV cache量化是关键 — 27B Q4_K_M本身的模型权重约15GB(双R9700 32G刚好放下),但256K上下文的KV cache会吃掉大量显存。你可以在llama.cpp启动参数里加 --cache-type-k q4_0 和 --cache-type-v q4_0,把KV cache从默认的FP16压缩到Q4,KV cache显存占用直接降到1/4。配合 --no-kv-offload 把KV cache放到系统内存,模型权重独占显存,速度损失没有想象中那么大。

          2. 双卡配置确认 — R9700实际就是W7900的变体,建议确认 --tensor-split 参数是否正确分配了负载。可以用 --verbose 启动看显存分配是否均衡。

          3. 关于laobenxiong提到的关掉压缩 — 他说的有道理,Hermes的压缩用的是DeepSeek做摘要,确实会丢失细节。但关了压缩后,每次请求都要重新prefill完整的256K上下文,这是速度瓶颈的主要来源。你可以试试开prompt caching(llama.cpp的 --no-prompt-cache 默认是关闭kv缓存复用的)。

          4. Batch size微调 — 试试 --ubatch-size 512 配合 --batch-size 2048,对长上下文场景的吞吐有帮助。

          5. 另外双R9700跑27B 256K,速度不可能太快,这是物理限制——大概4-6 tok/s是正常的。如果追求响应速度,可以缩减到128K上下文,速度会翻倍。

          1 条回复 最后回复
          0
          • B 离线
            B 离线
            Brian
            编写于 最后由 编辑
            #7
               -m /home/gaopy/models/Qwen3.6-27B-Q4_K_M.gguf \                          
               -ngl 99 \                                                                
               -c 262144 \                                                              
               --host 0.0.0.0 \                                                         
               --port 8080 \                                                            
               --reasoning off \                                                        
               -fa on \                                                                 
               -b 16384 \                                                               
               -ub 16384 \                                                              
               -np 1 \                                                                  
               --cache-type-k q8_0 \                                                    
               --cache-type-v q8_0 \                                                    
               --split-mode layer \                                                     
               --mlock \                                                                
               --no-cache-prompt \                                                      
               --cache-ram 0
            
            1 条回复 最后回复
            0
            • B 离线
              B 离线
              Brian
              编写于 最后由 编辑
              #8

              硬件环境

               | 项目     | 值                                         |                  
               |----------|--------------------------------------------|                  
               | GPU      | 2× AMD R9700 32GB (gfx1201, device 0x7551) |                  
               | 总显存   | 64 GB                                      |                  
               | ROCm     | 7.2.4 (AMD 官方 repo)                      |                  
               | PyTorch  | 2.10.0 + HIP 7.2.53211                     |                  
               | 系统内存 | 62 GB                                      |                  
               | OS       | Ubuntu, Linux 6.17.0-35                    |
              
              1 条回复 最后回复
              0
              • B 离线
                B 离线
                Brian
                编写于 最后由 编辑
                #9

                最近请求性能(task 25136, ~71K tokens context)

                 | 阶段            | 速度                    |                              
                 |-----------------|-------------------------|                              
                 | prompt 处理前期 | 1319 tok/s (16K tokens) |                              
                 | prompt 处理中期 | 909 tok/s (49K tokens)  |                              
                 | prompt 处理后期 | 577 tok/s (71K tokens)  |                              
                 | 总 prompt 时间  | 123.87s / 71,419 tokens |                              
                 | 生成速度        | 17.4 tok/s (稳定)       |
                

                当前运行状态

                 | 指标       | GPU 0          | GPU 1          |                           
                 |------------|----------------|----------------|                           
                 | 温度       | 64°C           | 66°C           |                           
                 | 功耗       | 205W / 300W    | 193W / 300W    |                           
                 | VRAM       | 27.67 GB (80%) | 27.04 GB (79%) |                           
                 | GPU 利用率 | 100%           | 100%           |                           
                 | SCLK       | 3366 MHz       | 2973 MHz       |                           
                                                                                            
                 - 进程 PID: 1016915,已运行 ~4h                                            
                 - 模型文件: /home/gaopy/models/Qwen3.6-27B-Q4_K_M.gguf (约 16 GB)          
                 - 生成速度: 实测 ~17-22 tok/s (当前 71K context 时 17.4 tok/s)
                
                1 条回复 最后回复
                0
                • A 离线
                  A 离线
                  asd2667
                  编写于 最后由 编辑
                  #10

                  至少运行Q6 最好Q8 模型,找支持MTP的模型,速度翻倍

                  1 条回复 最后回复
                  0
                  • soop ladiosS 在线
                    soop ladiosS 在线
                    soop ladios
                    编写于 最后由 soop ladios 编辑
                    #11

                    我用兩張V100 32G, qwen3.6 27B Q8模型可以到4x, reasoning模式關閉感覺智力略降, 所以雖然會拖慢一點, 我還是開著. 參數如下:
                    Environment=CUDA_DEVICE_ORDER=PCI_BUS_ID
                    Environment=CUDA_VISIBLE_DEVICES=0,1
                    ExecStart=llama-server
                    -m /opt/models/qwen3.6-27b-mtp/Qwen3.6-27B-UD-Q8_K_XL.gguf
                    --host 0.0.0.0
                    --port 9527
                    --alias qwen3.6-27b-ud-q8-xl
                    -ngl 999
                    --split-mode layer
                    --tensor-split 1,1
                    --ctx-size 400000
                    --parallel 2
                    --spec-type draft-mtp
                    --spec-draft-n-max 2
                    --chat-template-file /opt/models/qwen3.6-27b-mtp/chat_template.jinja
                    --cache-type-k q8_0
                    --cache-type-v q8_0
                    --flash-attn on
                    --batch-size 1024
                    --ubatch-size 256
                    --no-mmap
                    --cont-batching
                    --jinja
                    --metrics
                    --no-context-shift
                    --temp 0.15
                    --top-p 0.90
                    --top-k 40
                    --min-p 0.03
                    --repeat-last-n 512
                    --repeat-penalty 1.1
                    Restart=always
                    RestartSec=5

                    [Install]
                    WantedBy=multi-user.target

                    1 条回复 最后回复
                    0
                    • 张哲张 离线
                      张哲张 离线
                      张哲
                      编写于 最后由 编辑
                      #12

                      你这个MTP的效果不对啊,我矿机5卡,MTP加速都有15%了

                      1 条回复 最后回复
                      0
                      • S 离线
                        S 离线
                        sospda
                        编写于 最后由 编辑
                        #13

                        速度不正常, 用vulkan, mtp可以达到52tok/s, 用rocm 也可以达到45tok/s. 我说的是单卡的情况,双卡不清楚,但是不到20的速度肯定不正常。3.6 27b模型

                        1 条回复 最后回复
                        0
                        • 系统 取消固定了该主题

                        你好!看起来您对这段对话很感兴趣,但您还没有一个账号。

                        厌倦了每次访问都刷到同样的帖子?您注册账号后,您每次返回时都能精准定位到您上次浏览的位置,并可选择接收新回复通知(通过邮件或推送通知)。您还能收藏书签、为帖子顶,向社区成员表达您的欣赏。

                        有了你的建议,这篇帖子会更精彩哦 💗

                        注册 登录
                        回复
                        • 在新帖中回复
                        登录后回复
                        • 从旧到新
                        • 从新到旧
                        • 最多赞同


                        • 登录

                        • 没有帐号? 注册

                        • 登录或注册以进行搜索。
                        • 第一个帖子
                          最后一个帖子
                        0
                        • 版块
                        • 最新
                        • 标签
                        • 热门
                        • 用户
                        • 群组