跳转至内容
  • 版块
  • 最新
  • 标签
  • 热门
  • 用户
  • 群组
皮肤
  • 浅色
  • Brite
  • Cerulean
  • Cosmo
  • Flatly
  • Journal
  • Litera
  • Lumen
  • Lux
  • Materia
  • Minty
  • Morph
  • Pulse
  • Sandstone
  • Simplex
  • Sketchy
  • Spacelab
  • United
  • Yeti
  • Zephyr
  • 深色
  • Cyborg
  • Darkly
  • Quartz
  • Slate
  • Solar
  • Superhero
  • Vapor

  • 默认(不使用皮肤)
  • 不使用皮肤
折叠
品牌标识

抡锤者

Y

y2k

@y2k
关于
帖子
30
主题
2
分享
0
群组
0
粉丝
0
关注
0

帖子

最新 最佳 有争议的

  • 大模型16G卡的春天
    Y y2k

    写这个帖子是群主提议,本来我是向论坛朋友hotpigwk道歉的,之前他发的关于v100 16g显卡跑大模型的提问,我在帖子下喷这个卡垃圾,不行。今天早上看油管,无意看到有群友评论他自己的v100 16g显卡,在开启turboQuant后,上下文可以跑到100k。马上引起我的兴趣,因为手上有个5600ti 16g显卡,月初按着老特指引去搭建了qwen3.6-27b q4模型,驱动hermes,发现智力在线!真心可以干活,可是无论怎么搞,只能稳定跑20k上下文。顿时觉得16g显卡就像鸡肋,食之无味,弃之可惜。能用,但是又不省心。hermes自带的上下文都15K左右了,做稍微复杂的任务,马上oom。啰嗦了半天,开始进入主题。16g显卡其实也可以跑64K甚至更高的上下文。
    原文内容:我用v100 16g跑27b模型,开启turboQuant后,上下文翻倍,可以到100k。模型地址: https://huggingface.co/sokann/Qwen3.6-27B-GGUF-4.262bpw 不过它要用ik_llama.cpp加载,要自己编译, 好处是集成了turboQuant, KV可以翻倍。上下文可以开到100K,大概在28tokens/s。关键参数 -c 102400 -np 1 -fa on -ngl 99 -ctk q4_0 -khad -ctv q4_0 -vhad -wgt 1
    于是今天中午我特意用16g的5600ti测试一下,要是能跑到100k,那用hermes是相当不错了。
    1.文中提及的ik_llama.cpp,我这里用的是:https://github.com/Thireus/ik_llama.cpp/releases/tag/main-b4744-8d7891f
    上面又A卡的版本,也又N卡的版本,N卡是win和linux都有,A卡是只有linux。使用方法是直接下载,解压,然后写个脚本就可以运行起来。可以参考我这个
    #!/bin/bash

    ==================== 启动 llama-server ====================

    echo "========================================"
    echo " 正在启动 Qwen3.6-27B IQ4_XS..."
    echo "========================================"
    echo ""

    export LD_LIBRARY_PATH=/home/cyg/miniconda3/envs/vllm/lib/python3.10/site-packages/nvidia/cu13/lib:$LD_LIBRARY_PATH
    /home/cyg/ik_llama.cpp/build/bin/llama-server
    -m /home/cyg/models/Qwen3.6-27B-i1-IQ4_XS.gguf
    -c 51200
    -np 1
    -fa on
    -ngl 99
    -ctk q4_0
    -khad
    -ctv q4_0
    -vhad
    --host 0.0.0.0
    --port 8000
    --cont-batching
    --jinja
    --mlock
    --threads 10
    --threads-batch 12

    ==================== 退出处理 ====================

    echo ""
    echo "========================================"
    echo " llama-server 已停止运行"
    echo "========================================"
    1.上面是双q4运行50K上下文,其实可以跑到65535就是64K上下文的,我看着远程的向日葵,占用了400M左右的显存。
    2.原文提供的https://huggingface.co/sokann/Qwen3.6-27B-GGUF-4.262bpw ,我并没有下载,我还是用之前的Qwen3.6-27B-i1-IQ4_XS.gguf,之所以跑相同的模型,目的是想知道带有turboQuant的ik_llama.cpp是不是真的比官方的llama.cpp上下文翻倍。
    3.测试结果:确实是翻倍了,原来我只能稳定跑20k上下文,在极端双q4下,我成功跑到64K上下文。此时显存占用99%了。为了稳妥起见,我还是选择了50k上下文。速度上没有明显变化,都是25-27t/s,大家可以自行测试用原文网友的模型看看,可能会真能跑到100k,我这个50k已经满足。
    abf1456a-c2d3-4c7c-b0e5-e678a61cf6ea-image.jpeg
    下面是不同压缩的测试结果。
    4821a1d1-c447-402e-985d-357f64a685a7-image.jpeg
    e273c79e-9c68-4da3-aa10-cbdcb95cedd9-image.jpeg
    6e2fc60b-fb8e-4add-b9a2-f2077e3a30a7-image.jpeg
    d35220a1-efe5-46d9-88d6-acf2890c0f70-image.jpeg
    以上图片均是实际测试,并非云的。老特要想什么测试图片,可以提出来,我有空去测。

    LLM讨论区

  • 装机翻车了,求救
    Y y2k

    @terry 视频多次提及,反复强调,我都以为你和老板有py交易,而且老板也没否定,爽快升级,可能你不认老板,但老板认识你🤭

    AI硬件

  • 装机翻车了,求救
    Y y2k

    土豪啊。我也装机了,不过主机是抄作业那个华南x99+2682v4,板u加起来388元,跟老板说是论坛的老特介绍的,能不能给我升级一下6管散热器,然后老板就爽快的给我升级了配件
    Screenshot_20260511_073737.jpg

    AI硬件

  • 作为一个ai新手,想尝鲜尝试和学习,打算入一张V100 16G的,但是为啥论坛里完全不聊这张卡?真的是没有生产力?还是性价比太低?
    Y y2k

    @terry 我手上没这个卡,下午抽了点时间。用5060ti试了一下,同样是16g显存,应该有参考意义,之前用官网的llama.cpp跑qwen3.6-27b q4,最多开20k就不行了,下午试了一下这个ik_llama.cpp跑了一下。100k是跑不了,不过试了开50k上下文驱动hermes没有问题!速度25t/s。因为开着向日葵远程测试的,把向日葵关了估计能上到60k,用着算是不错!我发一下参数-c 51200
    -np 1
    -fa on
    -ngl 99
    -ctk q4_0
    -khad
    -ctv q4_0
    -vhad
    --host 0.0.0.0
    --port 8000
    --cont-batching
    --jinja
    --mlock
    --threads 10
    --threads-batch 12
    附下载地址:https://github.com/Thireus/ik_llama.cpp/releases/tag/main-b4744-8d7891f
    且行且珍惜

    AI硬件

  • 虽迟但到,交作业了
    Y y2k

    群里大佬都是人均有公网ipv4的吗?我只有公网ipv6,但是很多时候客户端没有v6,之后我就用一直用白嫖的cf隧道,虽然晚高峰速度一般,不过还算稳定

    AI硬件

  • 大模型16G卡的春天
    Y y2k

    刚刚测试50K上下文连续1万字测试,到3万就oom了,不知道啥情况

    LLM讨论区

  • 作为一个ai新手,想尝鲜尝试和学习,打算入一张V100 16G的,但是为啥论坛里完全不聊这张卡?真的是没有生产力?还是性价比太低?
    Y y2k

    b191e56f-8760-49a8-93f8-444da080c15b-image.jpeg

    e2d149b6-50c4-4f56-9902-9f631b1e7964-image.jpeg

    c8ccb3b0-fa73-429e-b8ff-2abddf1747fb-image.jpeg

    3个速度都差不多,25t/S,建议用 k q8 ,v q4,这样压缩质量和空间都比较好。集成了turboQuant的ik_llama.cpp确实可以大幅提升上下文压缩空间。N卡,A卡都有效果。以后16g卡跑27b模型会越来越好用

    AI硬件

  • 说一下我自己的20年硬件攒机的经验.
    Y y2k

    2002读大一的时候,就行玩qq聊天,那时候啥都不会,没钱买资料,又想学,于是每周去学校图书馆占位看电脑报,一周出2期,学校每日期都会买下供学生看,我就是看了一整年电脑报,从一个菜鸟变成老鸟,之后去图吧各种捡垃圾,玩amd超频,结果是索然无味的,但是过程乐趣无穷

    AI硬件

  • 抡锤者社区正式上线
    Y y2k

    报道,以后我也是第一批老人

    站点公告
  • 登录

  • 没有帐号? 注册

  • 登录或注册以进行搜索。
  • 第一个帖子
    最后一个帖子
0
  • 版块
  • 最新
  • 标签
  • 热门
  • 用户
  • 群组