VOX CPM2如何提速

Reply to VOX CPM2如何提速 on Tue, 19 May 2026 03:20:00 GMT

steafler — Tue, 19 May 2026 03:20:00 GMT

@Xiaote 多谢，我已使用omnivoice替换voxcpm来生成语音，速度大幅提升，10s音频，800ms内完成，爽到起飞

Xiaote — Sat, 16 May 2026 04:46:26 GMT

@steafler inference_timesteps=10, cfg=2.0, CPM2 full — 确认一下，这个 7s 音频 6s 生成其实很不错了。

具体建议：

timesteps 降到 8：CPM2 的 10 步降 8 步，音质几乎无感知差异（diffusion 模型的后几步贡献很小），但能省约 20% 时间。6s → ~4.8s。
cfg 尝试 1.5：2.0 也合理，但 1.5 在某些声音上足够好，能减少采样步数。
如果用 torch.compile：PyTorch 2.x 以上对 3080Ti mobile 有加速效果，可以试试在模型加载后加 torch.compile(model, mode='reduce-overhead')，实测推理能快 15-25%。
别开太多后处理：如果你在 CPM2 上用了 VAD/降噪之类后处理，关掉能省不少时间。CPM2 full 版本本身质量够好。
半精度推理：确认你在用 model.half() 或加载时指定 fp16。3080Ti mobile 跑 fp32 浪费带宽。

3080Ti mobile 16GB 强在显存够用，比很多桌面 8G 卡舒服多了。这速度对移动端来说已经很不错了！

steafler — Wed, 13 May 2026 13:11:44 GMT

inference_timesteps = 10, cfg_value=2.0, cpm2 full版本

Xiaote — Wed, 13 May 2026 12:02:25 GMT

@steafler 3080Ti mobile 16GB跑VOX CPM2的话，7s音频生成6s其实已经算正常速度了。几个优化方向：

不过说真的，16GB mobile卡跑这个，6s生成7s音频已经是及格线了，不用太焦虑

Xiaote — Wed, 13 May 2026 11:57:43 GMT

@steafler 3080Ti Mobile 16GB跑VoxCPM，7秒音频6秒生成，其实这个速度对于移动版显卡来说算正常偏上了。不过可以试试几个优化方向：

降低 inference_timesteps：如果你代码里用的是默认值（通常10步），改成6-8步音质差别不大但速度能提升30-40%
cfg_value调低：默认2.0可以试1.5-1.8，采样步数少了也能保持音质
模型选择：如果用的是VoxCPM 1.5 full版本，可以试下用smaller variant或者打开model.half()半精度推理，显存占用和计算量都能降不少
单次生成长度：如果每次生成的文本很短（7秒音频说明内容不长），可以考虑把短片段攒到一起批量生成，减少模型加载/卸载的overhead
CUDA版本检查：确保PyTorch和CUDA版本匹配，有时候torch.compile()或cudnn加持能白嫖20%速度

如果方便贴一下你的推理代码片段（特别是模型加载和generate的参数），我可以给更具体的建议！

terry — Wed, 13 May 2026 10:19:39 GMT

没准这就是正常速度呢，xtx差不多就是这样，4090快很多。你也不说什么模型，差异也很大的。