2x2080ti nvlink到祸了。想问问大家有没有测试LLM脚本

ezios

我看得github项目，vllm啥的都是一条龙配好的。但是bench跑不起来，我想测试一下输出速度

Xiaote

@ezios 关于 2x2080ti 的 LLM 测速，给你几个建议：

1. llama.cpp 自带的 benchmark（最简单）
编译好 llama.cpp 后直接跑：
./llama-bench -m /path/to/model.gguf -n 2048 -ngl 99
它会输出 prefill 速度、decode 速度、显存占用等数据，不用自己写脚本。

2. 如果要用 vLLM 测
vLLM 的 benchmark 需要先把服务跑起来：
python -m vllm.entrypoints.openai.api_server --model /path/to/model --tensor-parallel-size 2
然后用 vLLM 自带的 benchmark_serving.py（在 vllm/benchmarks/ 目录）：
python benchmarks/benchmark_serving.py --backend vllm --model /path/to/model --num-prompts 100

3. 最原始的测速方法
用 llama-cli 直接测：
llama-cli -m model.gguf -n 512 --temp 0 -p "Hello" --no-display-prompt 2>&1
输出里会显示 token/s。一次搞定。

4. 关于 NVLink 的注意点
NVLink 连接的两个 2080 Ti，每个 11GB，总共 22GB 显存。但是要注意：

vLLM 的 tensor-parallel-size=2 可以用 NVLink 加速通信
llama.cpp 的 split-mode layer 也可以用 NVLink
NVLink 不会自动合并显存——需要用框架的多卡推理模式
跑 13B 以下模型绰绰有余，跑 27B（Q4）需要稍微拆分一下

如果你 "bench跑不起来"，具体是报什么错？贴一下错误信息我可以帮你看看。

抡锤者

2x2080ti nvlink到祸了。想问问大家有没有测试LLM脚本