跳转至内容
  • 版块
  • 最新
  • 标签
  • 热门
  • 用户
  • 群组
皮肤
  • 浅色
  • Brite
  • Cerulean
  • Cosmo
  • Flatly
  • Journal
  • Litera
  • Lumen
  • Lux
  • Materia
  • Minty
  • Morph
  • Pulse
  • Sandstone
  • Simplex
  • Sketchy
  • Spacelab
  • United
  • Yeti
  • Zephyr
  • 深色
  • Cyborg
  • Darkly
  • Quartz
  • Slate
  • Solar
  • Superhero
  • Vapor

  • 默认(不使用皮肤)
  • 不使用皮肤
折叠
品牌标识

抡锤者

Y

y2k

@y2k
关于
帖子
30
主题
2
分享
0
群组
0
粉丝
0
关注
0

帖子

最新 最佳 有争议的

  • 大模型16G卡的春天
    Y y2k

    @张老师
    你可以用自己的模型阿,没有必要一定用我的,但是ik_llama.cpp就必须用我这个

    LLM讨论区

  • 大模型16G卡的春天
    Y y2k

    测试了,50K上下文没任何问题!
    f9f3dcf2-36f7-4a42-8517-1ec45f013461-image.jpeg

    LLM讨论区

  • 虽迟但到,交作业了
    Y y2k

    群里大佬都是人均有公网ipv4的吗?我只有公网ipv6,但是很多时候客户端没有v6,之后我就用一直用白嫖的cf隧道,虽然晚高峰速度一般,不过还算稳定

    AI硬件

  • 大模型16G卡的春天
    Y y2k

    @terry 要到现场才可以测试了,因为不敢把本地的向日葵关了,关了就远程不到算力机了,周一到本地测试下。跑64K感觉可以。我感觉多轮下来的上下文计算可能不对。

    LLM讨论区

  • 大模型16G卡的春天
    Y y2k

    @terry 有没有测试上下文极限的方法?提供一下,我想测试一下

    LLM讨论区

  • 大模型16G卡的春天
    Y y2k

    刚刚测试50K上下文连续1万字测试,到3万就oom了,不知道啥情况

    LLM讨论区

  • 大模型16G卡的春天
    Y y2k

    写这个帖子是群主提议,本来我是向论坛朋友hotpigwk道歉的,之前他发的关于v100 16g显卡跑大模型的提问,我在帖子下喷这个卡垃圾,不行。今天早上看油管,无意看到有群友评论他自己的v100 16g显卡,在开启turboQuant后,上下文可以跑到100k。马上引起我的兴趣,因为手上有个5600ti 16g显卡,月初按着老特指引去搭建了qwen3.6-27b q4模型,驱动hermes,发现智力在线!真心可以干活,可是无论怎么搞,只能稳定跑20k上下文。顿时觉得16g显卡就像鸡肋,食之无味,弃之可惜。能用,但是又不省心。hermes自带的上下文都15K左右了,做稍微复杂的任务,马上oom。啰嗦了半天,开始进入主题。16g显卡其实也可以跑64K甚至更高的上下文。
    原文内容:我用v100 16g跑27b模型,开启turboQuant后,上下文翻倍,可以到100k。模型地址: https://huggingface.co/sokann/Qwen3.6-27B-GGUF-4.262bpw 不过它要用ik_llama.cpp加载,要自己编译, 好处是集成了turboQuant, KV可以翻倍。上下文可以开到100K,大概在28tokens/s。关键参数 -c 102400 -np 1 -fa on -ngl 99 -ctk q4_0 -khad -ctv q4_0 -vhad -wgt 1
    于是今天中午我特意用16g的5600ti测试一下,要是能跑到100k,那用hermes是相当不错了。
    1.文中提及的ik_llama.cpp,我这里用的是:https://github.com/Thireus/ik_llama.cpp/releases/tag/main-b4744-8d7891f
    上面又A卡的版本,也又N卡的版本,N卡是win和linux都有,A卡是只有linux。使用方法是直接下载,解压,然后写个脚本就可以运行起来。可以参考我这个
    #!/bin/bash

    ==================== 启动 llama-server ====================

    echo "========================================"
    echo " 正在启动 Qwen3.6-27B IQ4_XS..."
    echo "========================================"
    echo ""

    export LD_LIBRARY_PATH=/home/cyg/miniconda3/envs/vllm/lib/python3.10/site-packages/nvidia/cu13/lib:$LD_LIBRARY_PATH
    /home/cyg/ik_llama.cpp/build/bin/llama-server
    -m /home/cyg/models/Qwen3.6-27B-i1-IQ4_XS.gguf
    -c 51200
    -np 1
    -fa on
    -ngl 99
    -ctk q4_0
    -khad
    -ctv q4_0
    -vhad
    --host 0.0.0.0
    --port 8000
    --cont-batching
    --jinja
    --mlock
    --threads 10
    --threads-batch 12

    ==================== 退出处理 ====================

    echo ""
    echo "========================================"
    echo " llama-server 已停止运行"
    echo "========================================"
    1.上面是双q4运行50K上下文,其实可以跑到65535就是64K上下文的,我看着远程的向日葵,占用了400M左右的显存。
    2.原文提供的https://huggingface.co/sokann/Qwen3.6-27B-GGUF-4.262bpw ,我并没有下载,我还是用之前的Qwen3.6-27B-i1-IQ4_XS.gguf,之所以跑相同的模型,目的是想知道带有turboQuant的ik_llama.cpp是不是真的比官方的llama.cpp上下文翻倍。
    3.测试结果:确实是翻倍了,原来我只能稳定跑20k上下文,在极端双q4下,我成功跑到64K上下文。此时显存占用99%了。为了稳妥起见,我还是选择了50k上下文。速度上没有明显变化,都是25-27t/s,大家可以自行测试用原文网友的模型看看,可能会真能跑到100k,我这个50k已经满足。
    abf1456a-c2d3-4c7c-b0e5-e678a61cf6ea-image.jpeg
    下面是不同压缩的测试结果。
    4821a1d1-c447-402e-985d-357f64a685a7-image.jpeg
    e273c79e-9c68-4da3-aa10-cbdcb95cedd9-image.jpeg
    6e2fc60b-fb8e-4add-b9a2-f2077e3a30a7-image.jpeg
    d35220a1-efe5-46d9-88d6-acf2890c0f70-image.jpeg
    以上图片均是实际测试,并非云的。老特要想什么测试图片,可以提出来,我有空去测。

    LLM讨论区

  • 作为一个ai新手,想尝鲜尝试和学习,打算入一张V100 16G的,但是为啥论坛里完全不聊这张卡?真的是没有生产力?还是性价比太低?
    Y y2k

    b191e56f-8760-49a8-93f8-444da080c15b-image.jpeg

    e2d149b6-50c4-4f56-9902-9f631b1e7964-image.jpeg

    c8ccb3b0-fa73-429e-b8ff-2abddf1747fb-image.jpeg

    3个速度都差不多,25t/S,建议用 k q8 ,v q4,这样压缩质量和空间都比较好。集成了turboQuant的ik_llama.cpp确实可以大幅提升上下文压缩空间。N卡,A卡都有效果。以后16g卡跑27b模型会越来越好用

    AI硬件

  • 作为一个ai新手,想尝鲜尝试和学习,打算入一张V100 16G的,但是为啥论坛里完全不聊这张卡?真的是没有生产力?还是性价比太低?
    Y y2k

    mmexport1778918795947.jpg
    38732870-1a28-43ce-ac22-ec544539f7b9-image.jpeg

    AI硬件

  • 作为一个ai新手,想尝鲜尝试和学习,打算入一张V100 16G的,但是为啥论坛里完全不聊这张卡?真的是没有生产力?还是性价比太低?
    Y y2k

    @terry 我手上没这个卡,下午抽了点时间。用5060ti试了一下,同样是16g显存,应该有参考意义,之前用官网的llama.cpp跑qwen3.6-27b q4,最多开20k就不行了,下午试了一下这个ik_llama.cpp跑了一下。100k是跑不了,不过试了开50k上下文驱动hermes没有问题!速度25t/s。因为开着向日葵远程测试的,把向日葵关了估计能上到60k,用着算是不错!我发一下参数-c 51200
    -np 1
    -fa on
    -ngl 99
    -ctk q4_0
    -khad
    -ctv q4_0
    -vhad
    --host 0.0.0.0
    --port 8000
    --cont-batching
    --jinja
    --mlock
    --threads 10
    --threads-batch 12
    附下载地址:https://github.com/Thireus/ik_llama.cpp/releases/tag/main-b4744-8d7891f
    且行且珍惜

    AI硬件

  • 作为一个ai新手,想尝鲜尝试和学习,打算入一张V100 16G的,但是为啥论坛里完全不聊这张卡?真的是没有生产力?还是性价比太低?
    Y y2k

    贴主抱歉了,泡了一下论坛,发现v100 跑大模型还真可能,附上27b模型链接,https://huggingface.co/sokann/Qwen3.6-27B-GGUF-4.262bpw, 不过它要用ik_llama.cpp加载,要自己编译, 好处是集成了turboQuant, KV可以翻倍。 论坛有人在V100 16G 上测试, 可以跑起来,上下文可以开到100K,大概在28tokens/s。关键参数 -c 102400 -np 1 -fa on -ngl 99  -ctk q4_0 -khad -ctv q4_0 -vhad -wgt 1

    AI硬件

  • 7900XTX + llama.cpp Qwen3.6 27B TurboQuant + MTP 测试结果分享
    Y y2k

    感谢老哥,感谢分享

    LLM讨论区

  • 装机翻车了,求救
    Y y2k

    @joker_chang ,,不知道呢,图片配置也发了,照着买就是

    AI硬件

  • 装机翻车了,求救
    Y y2k

    @joker_chang 刚刚问了,支持的!Screenshot_20260511_120839_com.taobao.taobao.jpg

    AI硬件

  • 装机翻车了,求救
    Y y2k

    @joker_chang 应该可以吧,我也只有台式机内存,不行的话我就退货了

    AI硬件

  • 别买显存低于20G的显卡了,最起码起步就是32G
    Y y2k

    280g带宽拖累了,小黄鱼出掉回点血

    AI硬件

  • 抡锤者社区正式上线
    Y y2k

    报道,以后我也是第一批老人

    站点公告

  • 🚨 别再用 WSL2跑 Hermes 了!3 分钟,零配置 — 我把 Hermes Agent 搬到了 Windows 原生环境
    Y y2k

    收藏了,感谢分享

    AI Agent

  • 请教各位大神,想要起一个英语频道,文案、语音生成方面应该怎么解决?
    Y y2k

    你居然想和老特抢饭碗?换个频道吧,

    自媒体
  • 登录

  • 没有帐号? 注册

  • 登录或注册以进行搜索。
  • 第一个帖子
    最后一个帖子
0
  • 版块
  • 最新
  • 标签
  • 热门
  • 用户
  • 群组