跳转至内容
  • 版块
  • 最新
  • 标签
  • 热门
  • 用户
  • 群组
皮肤
  • 浅色
  • Brite
  • Cerulean
  • Cosmo
  • Flatly
  • Journal
  • Litera
  • Lumen
  • Lux
  • Materia
  • Minty
  • Morph
  • Pulse
  • Sandstone
  • Simplex
  • Sketchy
  • Spacelab
  • United
  • Yeti
  • Zephyr
  • 深色
  • Cyborg
  • Darkly
  • Quartz
  • Slate
  • Solar
  • Superhero
  • Vapor

  • 默认(不使用皮肤)
  • 不使用皮肤
折叠
品牌标识

抡锤者

S

stakira

@stakira
关于
帖子
17
主题
2
分享
0
群组
0
粉丝
1
关注
0

帖子

最新 最佳 有争议的

  • Lucebox DFlash + PFlash 编译与部署指南 Qwen3.6-27B 方便抄作业 (Linux)
    S stakira

    @David-Zhang 不是这个意思。草稿质量高应该只影响预测命中率,最终准确率还是要看主模型和主模型的kv cache。

    LLM讨论区

  • Lucebox DFlash + PFlash 编译与部署指南 Qwen3.6-27B 方便抄作业 (Linux)
    S stakira

    草稿质量优先有什么用?最终质量优先才有用吧,比如 kv q_8 + drafter q_4

    LLM讨论区

  • 雙 RX 7900 XTX + Ubuntu 24.04 + ROCm 6.3 實戰報告
    S stakira

    @John-Ato 是开mtp还是不开?

    AI硬件

  • 雙 RX 7900 XTX + Ubuntu 24.04 + ROCm 6.3 實戰報告
    S stakira

    rocm还是慢,我也把单卡7900 xtx移到了Linux机器上,rocm 只能跑到28,vulkan用自带驱动只有19,完全卸载驱动再安装官方驱动后vulkan稳定35。AMD驱动这个事还是挺讨厌的,实际上之前Windows上能跑到40上下。

    AI硬件

  • Pro 6000都是怎么玩?
    S stakira

    Pro 6000 除了显存大,性能也就比 5090 强一点点。这玩意儿官方定价溢价就已经很高了,换算下来可以跑茫茫多的 API。没有实际用途就别买了,显卡是会过时的,而发烧是无止境的。今天有了 Pro 6000 就会感觉咬咬牙来第二张就可以跑某某模型了,有了第二张又觉得再来两张/六张就可以跑前沿模型了。当然,如果你明确知道自己需要 96GB 显存跑 n 秒以上的视频生成 + 用不起Seedance2.0 + 用不上Seedance 2.0的质量,那还是可以买的。

    AI硬件

  • 关于 7900 xtx 与 AMD 驱动
    S stakira

    淘到一张二手 ASRock AMD Radeon RX 7900 XTX Phantom Gaming 24GB OC。换下了之前的 RTX 5070 Ti + RTX 3060。

    第一发现这张卡性能先不提,尺寸确实是旗舰卡,比 5070 Ti 大一大圈,且差不多有3个槽厚,再塞一张卡间距会很小。第二这玩意儿要占3个8 pin 电源,电源附带的线都不够插别的了。无奈先把 5070 Ti 放一边单插一张 7900 xtx。

    进入 windows 后发现自动装了驱动。这是第一个坑。我想着装一下 AMD 官方驱动,结果装完后 AMD 官方软件无法启动,设备管理器和进程管理器中 7900 xtx 消失。折腾一番后用 amd cleanup utility 清除驱动,然后心想既然 windows 自带驱动能用就用着,遂用 windows 更新自动安装了驱动。这是第二个坑。

    llama.cpp vulkan 启动,发现无论怎么调生成速度都只有 16t/s,感觉非常失望。回想一下之后感觉不对,网上数字普遍没这么慢,可能是驱动有问题。于是再次用 amd cleanup utility 清除驱动,重启完成后立刻安装 AMD 官方驱动。

    这下速度正常了,大约 35-45,好歹是比之前的跛脚双卡快了。

    也许会有人说 linux 更好,主力机游戏还是要打的,还有各种要用的软件,不可能用 linux 的。而另一台 linux 的机箱塞不下,打算给它再搞一张 3060 12GB 凑一个双3060 24GB 玩玩。5070 Ti 还得再想想办法。

    看论坛没人提过 AMD 驱动,姑且提醒一下需要的朋友。

    AI硬件

  • 请教大佬:本地部署Qwen3.6 27B INT8,硬件Z790 HERO + 64GB D5 内存 + 5070Ti 16G + 5060Ti 16G + 4060Ti 16G ,硬件和散热都已经验证没有问题的前提下,结合fastllm,能真的做到智能三卡分层吗?
    S stakira

    @t-ppp 100%是可以的

    LLM讨论区

  • 关于Hermes 向量数据库辅助记忆的Tips:别用!
    S stakira

    hermes 本身的 memory 文件本质就是 system prompt,有需求完全可以手动审查修改。作为长期记忆肯定是太短了,但也不可能多么长。

    我给 hermes 接了 self-hosted mem0,到底有没有用我也不是太感觉得出来。现在这些记忆方案基本都是基于事后用模型去提取对话记录中的信息,然后建立某些结构。有些系统能够在对话过程中自动注入的,可能就有用一些。要主动调用的就够呛,至少感觉 qwen3.6-27b 并没这个习惯,或许添加 system prompt 会好一点。mem0 self-hosted 做得很烂,各种编译问题、权限问题,应该只是打着开源名号想卖 cloud api。

    现在各种 memory 系统太庞杂了,打算让子弹飞一会儿,以后成熟一点再说。留着 session 记录以后都可以导入的。

    AI Agent

  • 买了2张5060Ti,谁能跑最便宜的Qwen 27B?
    S stakira

    @AresROC 催更了兄弟

    AI硬件

  • 请教大佬:本地部署Qwen3.6 27B INT8,硬件Z790 HERO + 64GB D5 内存 + 5070Ti 16G + 5060Ti 16G + 4060Ti 16G ,硬件和散热都已经验证没有问题的前提下,结合fastllm,能真的做到智能三卡分层吗?
    S stakira
    1. "最繁重的前 24 层"、"中间的 16 层"、"比较轻松的 8 层" 应该没有这种说法,即使每层有区别也是因为特定模型每层使用了不同的设计,并且一般都是隔几层放一个什么层这样设计,跟在前后没关系。
    2. 你可以尝试 5060ti 和 5070ti 跑1:1 tensor parallel,很有可能会比分层快
    3. 两张卡能塞下没必要放第三张卡,越多越慢
    LLM讨论区

  • 本地单显卡10G显存部署DeepSeek相关资源
    S stakira

    玩这个其实没有多大意义的吧。decode速度是还可以,prefill速度感人,看起来是不过百。想象一下读个system prompt几十秒,读个代码文件好几分钟,读个网页好几分钟,根本没法用吧。

    LLM讨论区

  • hermes怎么玩会有趣一些
    S stakira

    最简单的,定时总结你关注的专业领域的新闻、把你懒得仔细看的资料丢给它看

    AI Agent

  • 另类16GB+12GB配置
    S stakira

    @tomcatzh 1000上下

    LLM讨论区

  • 买了2张5060Ti,谁能跑最便宜的Qwen 27B?
    S stakira

    两张 5060 ti 用 vllm 跑 tensor parallel 速度应该不错的,期待实测数字

    AI硬件

  • 另类16GB+12GB配置
    S stakira

    本帖适合原本就有 16GB 显卡的朋友低成本尝试。

    • 情况是原本有 16GB 显存的 RTX 5070 Ti 和一张 6GB 显存的 RTX 2060。
    • 5070 Ti 单卡跑 27b 需要 CPU offload,160k 上下文 LM Studio 只能跑到个位数的生成速度。
    • 尝试插上 6GB 2060 后,小心配置 llama.cpp,缩短上下文生成速度可以提升到 20 左右,达到可用程度。
    • 后另购入 12GB 的 3060,显存宽裕许多,llama.cpp 生成速度提升到接近 30。

    总的来讲单卡大显存还是更合适的选择,3090二手购入价和新5070Ti差不多甚至更低,虽然24GB也没给上下文留下多少,但可以跑到40+生成速度。5070 Ti 实际上算力比 3090 强,但显存不够成为了瓶颈。

    具体设置为:

    使用的是 llama.cpp Vulkan 版本。CUDA 版本疑似开销较大无法达到同样的上下文长度。LM studio 虽然后端是 llama.cpp,但暴露的可控制参数不够

    models.ini

    [unsloth/qwen3.6-27b]
    model = ./unsloth/Qwen3.6-27B-GGUF/Qwen3.6-27B-Q4_K_S.gguf
    mmproj = ./unsloth/Qwen3.6-27B-GGUF/mmproj-F32.gguf
    no-mmproj-offload = true
    no-mmap = true
    mlock = false
    cache-type-k = q8_0
    cache-type-v = q8_0
    reasoning = on
    dev = Vulkan1,Vulkan2
    n-gpu-layers = 999
    t = 0
    split-mode = layer
    tensor-split = 66,34
    kv-unified = true
    c = 160000
    np = 1
    ; Thinking mode for precise coding tasks
    temperature = 0.6
    top-k = 20
    top-p = 0.95
    min-p = 0.0
    repeat-penalty = 1.0
    presence-penalty = 0.0
    
    llama-server.exe \
        --models-preset ./models.ini \
        --host 0.0.0.0 \
        --models-max 1 \
        --port 1235
    

    dev 参数需要运行 llama-server.exe --list-devices 看一下实际的设备名
    另外把 models.ini 里的内容转换成 llama-server 的命令行参数也是等价的

    edit: 感觉可能发错区了,抱歉

    LLM讨论区

  • Llama.cpp如何上传图片
    S stakira

    @Tide 说:

    很吃内存

    LM studio 节省资源的推荐配置

    deb5f677-dc09-4aad-9667-e154e1283990-image.jpeg

    第1项修改减少并发数减少显存使用,第2、3项修改减少内存使用,后面两项修改量化kv cache减少显存使用

    LLM讨论区
  • 登录

  • 没有帐号? 注册

  • 登录或注册以进行搜索。
  • 第一个帖子
    最后一个帖子
0
  • 版块
  • 最新
  • 标签
  • 热门
  • 用户
  • 群组