跳转至内容
  • 版块
  • 最新
  • 标签
  • 热门
  • 用户
  • 群组
皮肤
  • 浅色
  • Brite
  • Cerulean
  • Cosmo
  • Flatly
  • Journal
  • Litera
  • Lumen
  • Lux
  • Materia
  • Minty
  • Morph
  • Pulse
  • Sandstone
  • Simplex
  • Sketchy
  • Spacelab
  • United
  • Yeti
  • Zephyr
  • 深色
  • Cyborg
  • Darkly
  • Quartz
  • Slate
  • Solar
  • Superhero
  • Vapor

  • 默认(不使用皮肤)
  • 不使用皮肤
折叠
品牌标识

抡锤者

V

vosrock

@vosrock
关于
帖子
56
主题
1
分享
0
群组
0
粉丝
0
关注
0

帖子

最新 最佳 有争议的

  • RTX3080 20g,qwen3.6 27B 45-50T/S 35B多模态256K 110T/S
    V vosrock

    记录一下自己RTX3080 20g的一些配置
    WIN11安装:
    git clone https://github.com/ggerganov/llama.cpp
    cmake -B build -D GGML_CUDA=ON -D CMAKE_CUDA_ARCHITECTURES=86 -D LLAMA_BUILD_SERVER=ON -D LLAMA_BUILD_ALL_EXAMPLES=OFF -D LLAMA_BUILD_TESTS=OFF -D LLAMA_BUILD_EXAMPLES=OFF
    cmake --build build --config Release --parallel 2

    27B原始64KQ8(35token/s):
    .\llama-server.exe -m D:\hermeswork\models\Qwen3.6-27B-IQ4_NL.gguf -c 65536
    -ngl 99 -t 14
    -tb 14 -b 2048
    -ub 512 --flash-attn on
    --cache-type-k q8_0 --cache-type-v q8_0
    --kv-offload --kv-unified
    --mmap --mlock
    --context-shift --reasoning off
    --reasoning-budget 0 --host 0.0.0.0
    --port 11434

    27B126KQ4MTP无多模态(48token/s)
    .\llama-server.exe -m D:\hermeswork\models\Qwen3.6-27B-IQ4_NL.gguf -c 128000
    -ngl 99 -t 14
    -tb 14 -b 4096
    -ub 256 --jinja
    --temp 0.7 --top-p 0.9
    --top-k 40 --min-p 0.0
    --presence-penalty 1.0 --repeat-penalty 1.05
    --flash-attn on --cache-type-k q4_0
    --cache-type-v q4_0 --kv-offload
    --kv-unified --mmap
    --mlock --spec-type draft-mtp
    --spec-draft-n-max 2 --skip-chat-parsing
    --reasoning off --reasoning-budget 0
    --host 0.0.0.0 `
    --port 11434

    35B256KQ4多模态 无MTP (113 TOKEN/S)
    .\llama-server.exe -m D:\hermeswork\models\Qwen3.6-35B-A3B-UD-IQ4_NL.gguf -c 262144
    -ngl 55 -t 14
    -tb 14 -b 4096
    -ub 256 --jinja
    --temp 0.7 --top-p 0.9
    --top-k 40 --min-p 0.0
    --presence-penalty 1.0 --repeat-penalty 1.05
    --flash-attn on --mmproj D:/hermeswork/models/mmproj-F32.gguf
    --no-mmproj-offload --image-min-tokens 1024
    --cache-type-k q4_0 --cache-type-v q4_0
    --skip-chat-parsing --reasoning off
    --reasoning-budget 0 --host 0.0.0.0
    --port 8080 --kv-offload
    --kv-unified --mmap
    --mlock `
    真是一张神卡啊

    AI硬件 nvidia rtx3080

  • RTX3080 20g,qwen3.6 27B 45-50T/S 35B多模态256K 110T/S
    V vosrock

    又让他写一个实时统计我TOKEN使用量的网页,一次成功了。

    0115.png

    AI硬件 nvidia rtx3080

  • 双 3090(NVLink)跑 Qwen3.6-27B,128K 上下文实测
    V vosrock

    @applejuice 反正我是一边折腾一边工作,有痛苦的时候,就是这次对话的改动很好,但是显存炸了,这个时候只有3T/S,你得等它慢慢总结,慢慢GIT
    27b也有过不去的坎,这个时候只能你自己告诉它怎么弄,我试过,它搞不定的,让他自己跑一个下午都跑不通,这里几天折腾,我的新软件也已经跑出来了。

    AI硬件 nvidia rtx3090 multi-gpu

  • RTX3080 20g,qwen3.6 27B 45-50T/S 35B多模态256K 110T/S
    V vosrock

    c135dcf4-6d1b-4b0c-bc90-421228b00b0c.jpg

    AI硬件 nvidia rtx3080

  • (双卡指南) 最丐 Qwen3.6-27b - 3000 元双 RTX 3060 - 50t/s
    V vosrock

    都170K上下文了,任务都跑了一个多小时了,还能有50多TOKEN/S,不过这个不是常态,通常这个时候只能到30T/S,PERFILL只能到350左右

    AI硬件 nvidia rtx3060 multi-gpu

  • RTX3080 20g,qwen3.6 27B 45-50T/S 35B多模态256K 110T/S
    V vosrock

    最新优化,我觉得又白嫖了KV了,多模态MTP,长时间N多轮对话直到KV到99%都稳定运行,KV已经可以达到190K.。。。我继续让他做中型的代码任务,
    35B我觉得可以弃用了,MTP基本无效,不时出点“什么缩进错误”,或者“干脆我重写好了”,
    隔壁帖子提到的forcing full prompt re-processing due to lack of cache dataforcing full prompt re-processing due to lack of cache data现象,终于是出现了,不过也就一扫而过,没有感到任何异常

    019.png

    020.png
    改了高亮的地方

    AI硬件 nvidia rtx3080

  • RTX3080 20g,qwen3.6 27B 45-50T/S 35B多模态256K 110T/S
    V vosrock

    011.png
    012.png
    经过一天的折腾,27B确实智能更强,在教他干活的时候明显好用,多智能体协作的时候或者并行的时候,峰值可达70TOKEN/S,我勒个去,这个速度是我万万没想到的,35B我还没测试多线程,单线程的时候任务超过10分钟后,速度也会降到60多,我怀疑是还没优化到位,不过我已经不想搞了,27B三个线程已经可以这么快,就算两个线程基本是可以到60TOKEN/S的,我还搞毛线啊,干活去

    AI硬件 nvidia rtx3080

  • RTX3080 20g,qwen3.6 27B 45-50T/S 35B多模态256K 110T/S
    V vosrock

    016.PNG
    用27B跑项目的前期,工作习惯,框架大体搭好,然后用35B,开满上下文,不用MTP,速度就是这个样子,截图的这个状态实际上下文已经跑到了150K了,这只是单卡,还是不要搞双卡了,哥们

    AI硬件 nvidia rtx3080

  • RTX3080 20g,qwen3.6 27B 45-50T/S 35B多模态256K 110T/S
    V vosrock

    隔壁帖子SKY大佬提供的模型Qwen3.6-27B-uncensored-abliterated-MTP-i1-IQ4_XS-FFN-IQ3,27B多模态MTP的速度,KV现在是150K上限,跑到了100K左右,显存峰值才19。3G,也就是说还可以继续加,不过这个速度这个精度还多模态,已经无遗憾了

    017.png

    AI硬件 nvidia rtx3080

  • RTX3080 20g,qwen3.6 27B 45-50T/S 35B多模态256K 110T/S
    V vosrock

    我目前使用HERMES的方法是对话式的,还没达到大佬们自动生产脚本的程度,目前的体验已经比在线的要好,要快,能力一点不弱,甚至更强,因为它读我给它的PDF,又快又准,理解得又好,甚至有的时候我对PDF那个环节拿不准,让他帮我找解决方法比我去看还快,之前一旦对话到后期,显存占用19.7M无论共享显存是0.2G还是多少,就有几率出现个位数的T/S,这个时候就比较煎熬了,因为这个时候项目代码有的还没更新完,停又不好停,但是现在这个设置,达到19.7G显存占用后,速度几乎还能保持35T/S左右,甚至现在共享显存已经到了1G了,还是很稳,对话过程的延时基本就是一两秒就开始给我回复了,到此刻,正式结束HERMES 跑QWEN3.6 27B的参数优化,谢谢大家看我唠叨

    AI硬件 nvidia rtx3080

  • RTX3080 20g,qwen3.6 27B 45-50T/S 35B多模态256K 110T/S
    V vosrock

    68160e31-fec7-4c40-a774-2c2fa3ba5a30.jpg
    7b0e2fd8-0df9-4ec7-97e2-c1f58af87242.jpg

    AI硬件 nvidia rtx3080

  • RTX 3080 20GB 上以 256k / ~45 tk/s 运行 Qwen3.6-35B-A3B-Q4-K-M(ubuntu)
    V vosrock

    我是同样的显卡,128K上下文带视觉的速度是120TK/S,跑27B速度64K上下文的速度是55TK/S,就是上下文小了点,其实速度是飞快的

    LLM讨论区

  • RTX3080 20g,qwen3.6 27B 45-50T/S 35B多模态256K 110T/S
    V vosrock

    可以试试这几个配置,这个上下文这个速度,我感觉已经没有升级的冲动了
    6310dcdb-b00e-4a26-af40-54f486506e1f.jpg

    AI硬件 nvidia rtx3080
  • 登录

  • 没有帐号? 注册

  • 登录或注册以进行搜索。
  • 第一个帖子
    最后一个帖子
0
  • 版块
  • 最新
  • 标签
  • 热门
  • 用户
  • 群组