跳转至内容
  • 版块
  • 最新
  • 标签
  • 热门
  • 用户
  • 群组
皮肤
  • 浅色
  • Brite
  • Cerulean
  • Cosmo
  • Flatly
  • Journal
  • Litera
  • Lumen
  • Lux
  • Materia
  • Minty
  • Morph
  • Pulse
  • Sandstone
  • Simplex
  • Sketchy
  • Spacelab
  • United
  • Yeti
  • Zephyr
  • 深色
  • Cyborg
  • Darkly
  • Quartz
  • Slate
  • Solar
  • Superhero
  • Vapor

  • 默认(不使用皮肤)
  • 不使用皮肤
折叠
品牌标识

抡锤者

D

davidwei0826

@davidwei0826
关于
帖子
5
主题
1
分享
0
群组
0
粉丝
0
关注
0

帖子

最新 最佳 有争议的

  • 用3090如果只跑llm, 平均一个月用多少kwh 的电?好像比订阅的费用还要贵
    D davidwei0826

    我觉得本地化部署就两个场景适合:

    1. 你有私密的数据。local agents场景,Openclaw或者Hermes真要能帮你干活,你得给他很多私密的数据,服务器的用户名密码,邮箱密码什么的。
    2. 你的需求没有现成的外部算力平台,比如老特的那种定制化的数字人生产流水线。
      其他你要是写代码,爬资料之类的公共信息相关需求,直接买coding plan肯定更划算。
    AI硬件

  • 说一下我自己的20年硬件攒机的经验.
    D davidwei0826

    我第一台自己的PC也是手搓的,2000年 毒龙750+256M内存,20G硬盘。用了5年,最后加到512M内存做archlinux的NAS. 跑了电驴、samba、nfs什么的。记得当时硬盘都是并口,动静老大了,而且还特别烫手。

    AI硬件

  • 虽迟但到,交作业了
    D davidwei0826

    Rustdesk我一直在用效果不错。建议自架服务,不要用官方服务,安全第一。
    内网穿透,方案很多了,我现在是手机ipv6的wireguard穿回来;如果你传大文件,建议用vmess这种伪装的协议,我架了一个vmess的ws,放在ipv6的网站下,作为传大文件和wg的备用。wg是基于udp的,用的多了容易被运营商卡速度,vmess+ws基于tcp没有这个问题。
    如果不愿意用ipv6或者嫌不方便,可以考虑nat打洞,具体youtube上各大博主都有介绍,嫌麻烦就cloudflare,不怕麻烦就弄个小水管的vps做信息中转。我实测nat打洞还是挺方便的,各种网络环境都能回来。 cloudflare反代方案好在不用改端口,但是速度不太行,小流量延时不敏感的可以考虑。

    AI硬件

  • 2080Ti 22G魔改版+llama.cpp pr-22673开启MTP Chat场景TPS提升20%左右
    D davidwei0826

    今天看到一篇微信公众号文章: https://mp.weixin.qq.com/s/KQo-UBEOvtRMW5dK1bz6PQ
    按照文章内容搭建了测试环境:

    git clone https://github.com/ggml-org/llama.cpp llama.cpp-mtp
    cd llama.cpp-mtp
    git fetch origin pull/22673/head:pr-22673
    git checkout pr-22673
    mkdir build && cd build
    cmake .. \
      -DCMAKE_BUILD_TYPE=Release \
      -DGGML_CUDA=ON \
      -DLLAMA_CURL=ON \
      -DGGML_NATIVE=ON \
      -DGGML_CUDA_GRAPHS=ON \
      -DGGML_CUDA_F16=ON \
      -DGGML_CUDA_FA_ALL_QUANTS=ON \
      -DCMAKE_CUDA_ARCHITECTURES=75   # 按需调整,89=Ada/4090,86=Ampere/3090
    cmake --build . --config Release \
      --target llama-server llama-bench --parallel
    

    下载了unsloth的开启MTP模型: https://huggingface.co/unsloth/Qwen3.6-27B-MTP-GGUF/resolve/main/Qwen3.6-27B-Q4_K_M.gguf -O ~/models/Qwen3.6-27B-MTP-Q4_K_M.gguf
    不加载vision的情况下, 启动:

    ~/llama.cpp-mtp/build/bin/llama-server -m ~/models/Qwen3.6-27B-MTP-Q4_K_M.gguf \
    --ctx-size 131072 \
    --n-gpu-layers 999 \
    -fa on \
    --port 8000 \
    --host 0.0.0.0 \
    --cache-type-k q4_0 \
    --cache-type-v q4_0 \
    --no-mmap \
    --no-warmup \
    --reasoning off \
    --jinja \
    --parallel 1 \
    --spec-type mtp \
    --spec-draft-n-max 2 \
    --chat-template-kwargs "{\"enable_thinking\": false, \"preserve_thinking\": false}"
    

    128k上下文,显存占用20.5G,简单用cherrybox提了几个问题,prompt大概2k上下。 TPS从之前的27提升到了33左右。整体感觉快了20%。 coding场景没有测试,理论上应该提升更多。
    另外,对于--spec-draft-n-max 的值,测了1,2,3。发现2时收益最大,能跑到33~34; 1和3都在30上下。 总体都比裸跑有提升。
    最后挂上了vision,发了一张1M左右的图片测试了一下,TPS在28左右,显存占用21.75G。 我准备测几天,看看会不会OOM。
    另外还有一个发现,开了MTP以后,显卡的utility下来了。之前基本上都在95%以上,功率一直顶着上限250W。开了MTP,tps上升的同时,utility基本上都在80%左右,功率也基本上不会满载了。估计是降低了开销,输出也降低,但是被MTP补偿了。

    总体来讲,2080Ti这个卡应该没什么压榨空间了,跑Hermes太慢,适合跑好skill,布置好cron让他后台自己干活,不适合前台交互。
    d7d8fd62-8a01-48ef-8bce-7a9b108e255b-image.jpeg

    LLM讨论区
  • 登录

  • 没有帐号? 注册

  • 登录或注册以进行搜索。
  • 第一个帖子
    最后一个帖子
0
  • 版块
  • 最新
  • 标签
  • 热门
  • 用户
  • 群组