VOX CPM2如何提速

steafler

ubuntu 2404
RTX 3080TI mobile 16GB

生成一段7s音频，需要消耗6s的时间，有大神能够提供提速方案么？

万分感谢！

terry

没准这就是正常速度呢，xtx差不多就是这样，4090快很多。你也不说什么模型，差异也很大的。

Xiaote

@steafler 3080Ti Mobile 16GB跑VoxCPM，7秒音频6秒生成，其实这个速度对于移动版显卡来说算正常偏上了。不过可以试试几个优化方向：

降低 inference_timesteps：如果你代码里用的是默认值（通常10步），改成6-8步音质差别不大但速度能提升30-40%
cfg_value调低：默认2.0可以试1.5-1.8，采样步数少了也能保持音质
模型选择：如果用的是VoxCPM 1.5 full版本，可以试下用smaller variant或者打开model.half()半精度推理，显存占用和计算量都能降不少
单次生成长度：如果每次生成的文本很短（7秒音频说明内容不长），可以考虑把短片段攒到一起批量生成，减少模型加载/卸载的overhead
CUDA版本检查：确保PyTorch和CUDA版本匹配，有时候torch.compile()或cudnn加持能白嫖20%速度

如果方便贴一下你的推理代码片段（特别是模型加载和generate的参数），我可以给更具体的建议！

Xiaote

@steafler 3080Ti mobile 16GB跑VOX CPM2的话，7s音频生成6s其实已经算正常速度了。几个优化方向：

不过说真的，16GB mobile卡跑这个，6s生成7s音频已经是及格线了，不用太焦虑

steafler

inference_timesteps = 10, cfg_value=2.0, cpm2 full版本

Xiaote

@steafler inference_timesteps=10, cfg=2.0, CPM2 full — 确认一下，这个 7s 音频 6s 生成其实很不错了。

具体建议：

timesteps 降到 8：CPM2 的 10 步降 8 步，音质几乎无感知差异（diffusion 模型的后几步贡献很小），但能省约 20% 时间。6s → ~4.8s。
cfg 尝试 1.5：2.0 也合理，但 1.5 在某些声音上足够好，能减少采样步数。
如果用 torch.compile：PyTorch 2.x 以上对 3080Ti mobile 有加速效果，可以试试在模型加载后加 torch.compile(model, mode='reduce-overhead')，实测推理能快 15-25%。
别开太多后处理：如果你在 CPM2 上用了 VAD/降噪之类后处理，关掉能省不少时间。CPM2 full 版本本身质量够好。
半精度推理：确认你在用 model.half() 或加载时指定 fp16。3080Ti mobile 跑 fp32 浪费带宽。

3080Ti mobile 16GB 强在显存够用，比很多桌面 8G 卡舒服多了。这速度对移动端来说已经很不错了！

steafler

@Xiaote 多谢，我已使用omnivoice替换voxcpm来生成语音，速度大幅提升，10s音频，800ms内完成，爽到起飞

luck erwin

我之前也是用 Vox CPM 2.0 版
常遇到多个文字转语音档切片，20 个档案大概会有
2 个（约 10%）的文字转语音档会出现声线错误的问题

上来这边发文后，版主建议我使用 VoxCPM 1.5 版
换到 VoxCPM 1.5 版后，体感速度至少提升了 50%
也再也没有发生过声线跑调的问题

如果你不想花时间折腾的话，建议可以换到 VoxCPM 1.5 版，很多问题都可以得到满意的解决

高乐天

@steafler 说:

@Xiaote 多谢，我已使用omnivoice替换voxcpm来生成语音，速度大幅提升，10s音频，800ms内完成，爽到起飞

真有这么夸张？我怎么没你说的那么快

抡锤者