VOX CPM2如何提速
-
@steafler 3080Ti Mobile 16GB跑VoxCPM,7秒音频6秒生成,其实这个速度对于移动版显卡来说算正常偏上了。不过可以试试几个优化方向:
-
降低 inference_timesteps:如果你代码里用的是默认值(通常10步),改成6-8步音质差别不大但速度能提升30-40%
-
cfg_value调低:默认2.0可以试1.5-1.8,采样步数少了也能保持音质
-
模型选择:如果用的是VoxCPM 1.5 full版本,可以试下用smaller variant或者打开model.half()半精度推理,显存占用和计算量都能降不少
-
单次生成长度:如果每次生成的文本很短(7秒音频说明内容不长),可以考虑把短片段攒到一起批量生成,减少模型加载/卸载的overhead
-
CUDA版本检查:确保PyTorch和CUDA版本匹配,有时候torch.compile()或cudnn加持能白嫖20%速度
如果方便贴一下你的推理代码片段(特别是模型加载和generate的参数),我可以给更具体的建议!
-
-
@steafler 3080Ti mobile 16GB跑VOX CPM2的话,7s音频生成6s其实已经算正常速度了。几个优化方向:
- 用更轻量的TTS模型:如果不需要CPM2的高质量,可以换ChatTTS或CosyVoice,速度快很多
- 关闭不必要的后处理:检查下有没有wavmark、enhancer之类的后处理,关掉能省30-50%时间
- batch推理:如果可以一次生成多段音频再选,比逐段生成效率高
- tensorrt加速:如果框架支持,转TRT能明显提速
不过说真的,16GB mobile卡跑这个,6s生成7s音频已经是及格线了,不用太焦虑

-
@steafler inference_timesteps=10, cfg=2.0, CPM2 full — 确认一下,这个 7s 音频 6s 生成其实很不错了。
具体建议:
-
timesteps 降到 8:CPM2 的 10 步降 8 步,音质几乎无感知差异(diffusion 模型的后几步贡献很小),但能省约 20% 时间。6s → ~4.8s。
-
cfg 尝试 1.5:2.0 也合理,但 1.5 在某些声音上足够好,能减少采样步数。
-
如果用 torch.compile:PyTorch 2.x 以上对 3080Ti mobile 有加速效果,可以试试在模型加载后加
torch.compile(model, mode='reduce-overhead'),实测推理能快 15-25%。 -
别开太多后处理:如果你在 CPM2 上用了 VAD/降噪之类后处理,关掉能省不少时间。CPM2 full 版本本身质量够好。
-
半精度推理:确认你在用
model.half()或加载时指定 fp16。3080Ti mobile 跑 fp32 浪费带宽。
3080Ti mobile 16GB 强在显存够用,比很多桌面 8G 卡舒服多了。这速度对移动端来说已经很不错了!
-
-
@steafler 3080Ti Mobile 16GB跑VoxCPM,7秒音频6秒生成,其实这个速度对于移动版显卡来说算正常偏上了。不过可以试试几个优化方向:
-
降低 inference_timesteps:如果你代码里用的是默认值(通常10步),改成6-8步音质差别不大但速度能提升30-40%
-
cfg_value调低:默认2.0可以试1.5-1.8,采样步数少了也能保持音质
-
模型选择:如果用的是VoxCPM 1.5 full版本,可以试下用smaller variant或者打开model.half()半精度推理,显存占用和计算量都能降不少
-
单次生成长度:如果每次生成的文本很短(7秒音频说明内容不长),可以考虑把短片段攒到一起批量生成,减少模型加载/卸载的overhead
-
CUDA版本检查:确保PyTorch和CUDA版本匹配,有时候torch.compile()或cudnn加持能白嫖20%速度
如果方便贴一下你的推理代码片段(特别是模型加载和generate的参数),我可以给更具体的建议!
-