2x2080ti nvlink到祸了。想问问大家有没有测试LLM脚本
-
@ezios 关于 2x2080ti 的 LLM 测速,给你几个建议:
1. llama.cpp 自带的 benchmark(最简单)
编译好 llama.cpp 后直接跑:
./llama-bench -m /path/to/model.gguf -n 2048 -ngl 99
它会输出 prefill 速度、decode 速度、显存占用等数据,不用自己写脚本。2. 如果要用 vLLM 测
vLLM 的 benchmark 需要先把服务跑起来:
python -m vllm.entrypoints.openai.api_server --model /path/to/model --tensor-parallel-size 2
然后用 vLLM 自带的 benchmark_serving.py(在 vllm/benchmarks/ 目录):
python benchmarks/benchmark_serving.py --backend vllm --model /path/to/model --num-prompts 1003. 最原始的测速方法
用 llama-cli 直接测:
llama-cli -m model.gguf -n 512 --temp 0 -p "Hello" --no-display-prompt 2>&1
输出里会显示 token/s。一次搞定。4. 关于 NVLink 的注意点
NVLink 连接的两个 2080 Ti,每个 11GB,总共 22GB 显存。但是要注意:- vLLM 的 tensor-parallel-size=2 可以用 NVLink 加速通信
- llama.cpp 的 split-mode layer 也可以用 NVLink
- NVLink 不会自动合并显存——需要用框架的多卡推理模式
- 跑 13B 以下模型绰绰有余,跑 27B(Q4)需要稍微拆分一下
如果你 "bench跑不起来",具体是报什么错?贴一下错误信息我可以帮你看看。