跳转至内容
  • 版块
  • 最新
  • 标签
  • 热门
  • 用户
  • 群组
皮肤
  • 浅色
  • Brite
  • Cerulean
  • Cosmo
  • Flatly
  • Journal
  • Litera
  • Lumen
  • Lux
  • Materia
  • Minty
  • Morph
  • Pulse
  • Sandstone
  • Simplex
  • Sketchy
  • Spacelab
  • United
  • Yeti
  • Zephyr
  • 深色
  • Cyborg
  • Darkly
  • Quartz
  • Slate
  • Solar
  • Superhero
  • Vapor

  • 默认(不使用皮肤)
  • 不使用皮肤
折叠
品牌标识

抡锤者

B

bwghh

@bwghh
取消关注 关注
关于
帖子
3
主题
1
分享
0
群组
0
粉丝
0
关注
0

帖子

最新 最佳 有争议的

  • 还以为会很折腾,没想到一下就好了弄好了:7900xtx
    B bwghh

    补充一点,测试了几个二进制版本,B9664版本的llamacpp vulkan 是速度最快的。最新的自编译版本B9755 速度也很快。两个版本之间的B975x 都会有10%左右的速度损失。应该是llamacpp主线在针对mtp做优化。

    LLM讨论区

  • 还以为会很折腾,没想到一下就好了弄好了:7900xtx
    B bwghh

    @nami-ryuu

    好的,这个模板是从qwen3.5就在用的,主要是修复qwen系列工具调用标签的问题。
    论坛好像没办法上传文件?
    放在这里了:https://github.com/bemoons/KickRSS-Go/releases/download/kickRSS/fix-chat_template.tar.gz

    LLM讨论区

  • 还以为会很折腾,没想到一下就好了弄好了:7900xtx
    B bwghh

    618 买的 7900xtx + 1200w金牌电源套装,6300左右。
    有个闲置的老服务器,E52670 v2(原本是V1,听说没有pcie atomics,花了70块钱买了两块V2换上)64G ddr3,华硕Z9PA-D8主板,去年送人都没人要,今年拿来跑hermes了。
    到货之后,就换上电源,插上显卡,开机。
    配置如下:

    Hardware: ASUS Z9PA-D8 + 2x E5-2670 V2 + 64GB DDR3 ECC + RX 7900 XTX 24GB
    OS: Ubuntu 24.04 Server
    Driver: Mesa 26.1.2 (RADV NAVI31)
    Backend: Vulkan
    llama.cpp: b9664 + 最新版自编译
    

    两个模型:
    Qwen3.6-27B-uncensored-heretic-v2-Native-MTP-Preserved-Q4_K_M.gguf
    Qwen3.6-35B-A3B-uncensored-heretic-Native-MTP-Preserved-APEX-I-Compact.gguf
    配对应的mmproj 。

    启动脚本:
    27B:

    #!/bin/bash
    
    # 1. 注入 AMD Vulkan 专属性能优化变量
    export GGML_VK_ALLOW_GRAPHICS_QUEUE=1
    export GGML_VK_VISIBLE_DEVICES=0
    
    # 2. 启动服务
    exec /data/llamacpp/llama-server-active \
       -m /data/models/Qwen3.6-27B-uncensored-heretic-v2-Native-MTP-Preserved-Q4_K_M.gguf \
       --mmproj /data/models/mmproj-27B-F16.gguf \
       -ngl 999 \
       -c 131072\
       -np 1 \
       -ctk q8_0 -ctv q8_0 \
       -fa on \
       --image-min-tokens 1024 \
       --jinja \
       --chat-template-file /data/models/fix-chat_template.jinja \
       --spec-type draft-mtp --spec-draft-n-max 2 \
       --host 0.0.0.0 \
       --port 7890 \
       --api-key xxxxxxx \
       --alias qwen-36-27B\
       --metrics
    

    35B:

    #!/bin/bash
    
    # 1. 注入 AMD Vulkan 专属性能优化变量
    export GGML_VK_ALLOW_GRAPHICS_QUEUE=1
    export GGML_VK_VISIBLE_DEVICES=0
    
    # 2. 启动服务
    exec /data/llamacpp/llama-server-active \
       -m /data/models/Qwen3.6-35B-A3B-uncensored-heretic-Native-MTP-Preserved-APEX-I-Compact.gguf \
       --mmproj /data/models/mmproj-35B-A3B-F16.gguf \
       -ngl 999 \
       -c 262144 \
       -np 1 \
       -b 2048 -ub 2048 \
       -ctk q4_0 -ctv q4_0 \
       -fa on \
       --cache-reuse 4096 \
       --image-min-tokens 1024 \
       --jinja \
       --chat-template-file /data/models/fix-chat_template.jinja \
       --host 0.0.0.0 \
       --port 7890 \
       --api-key xxxxxxx \
       --alias qwen-36-35BA3B \
       --metrics
    

    速度情况:
    Qwen3.6 35BA3B:开启后约剩余4G显存

    简单测试了一个58000 token 大文本(约10万汉字)prefill 大概2000,decode 大概116-117。
    82f11808-2e67-4966-9ae9-707de2e9af9f-image.jpeg
    简单测试问答与千字左右文本生成:decode速度大概 130+
    bbd807d7-3159-4566-a759-bcde0bc22022-image.jpeg
    图片分析速度跟大文本差不多,不浪费资源了。

    Qwen3.6 27B,开启后约剩余1G显存

    58000token 大文本:prefill 平均600,decode 大概45。
    8e04cbcc-9c55-48bb-b9dd-02946b26882a-image.jpeg
    简单问答千字左右文本生成:decode 大概 70+
    3b538646-ffd1-4116-b3b5-f7c0bc4c81af-image.jpeg

    之前是用5090D32G vllm Qwen3.6-27B nvfp4量化。速度大概prefill 7000+ decode 200+。7900xtx 跑 35BA3B效果勉强能接近。目前就以35BA3B为主要模型在运行。

    用途:
    1 hermes 底座模型,配合修改过的jinja模板,实测没有出现bug,日常工作效果凑合。我不用hermes 开发,纯维护一些自动化脚本,rag库,搜索引擎服务之类的。
    2 RSS重度使用者,vibe了一个自用的RSS阅读器,BYOK,无限token没心理负担,用llm实现快速新闻归类,新闻摘要,注意力等级标签等等。适合不喜欢推荐算法,希望保持大量阅读的用户:https://github.com/bemoons/KickRSS
    3 沉浸式翻译,ocr,各种小ai应用等等。

    LLM讨论区
  • 登录

  • 没有帐号? 注册

  • 第一个帖子
    最后一个帖子
0
  • 版块
  • 最新
  • 标签
  • 热门
  • 用户
  • 群组