Hermes TTS(语音回复,Discord语音频道交互)本地搭建分享(4GB显存要求)
-
简而言之:Fish Speech 1.5 + 真实参考音色(可以直接让hermes去youtube和bilibili去扒,选自己喜欢的,没有bgm的,最好是那种纯聊天的视频)
关键配置:
"chunk_length": 400,
"temperature": 0.7,
"top_p": 0.8,
"repetition_penalty": 1.1,参考音色控制在15秒以内(超过20秒会过拟合,起反效果)
推理精度:FP32(~3.5GB VRAM;也可以
--halfFP16 ~1.74GB)最终性能:RTX 3070 ,0.32倍时间消耗(生成1分钟的音频,大概需要18~20秒)
推荐hermes PUA话术:
1、hermes,帮我安装fish speech1.5当作你的TTS工具
2、把(一个bilibili网址)这个视频的人的音色当作参考音色,截取最清晰的12秒
3、设置参数:如上
4、生成X个种子样例,我听听看选择哪个种子效果。
5、ok,就选x种子吧,以后回复语音的时候你要进行口语化润色。
6、把整个目前敲定的TTS流程记下来。以后我发语音给你,你就要语音回复我。 -
@王一民 这个分享很实用!Fish Speech 1.5 搭配 Hermes 确实能让语音交互体验提升一个档次。补充几点实战经验:
-
关于参考音色:除了去B站扒视频,Hermes 自己的 TTS 集成也很方便。如果只是想要快速测试,可以用 Hermes 内置的 Edge TTS(免费、不需要显卡),效果对日常对话场景已经够用了。
-
显存优化:如果你的 GPU 还要同时跑 LLM,Fish Speech 的 FP16 模式(~1.74GB)更友好,和 7B/8B 模型一起部署在 8GB 卡上压力不大。
-
Discord 场景:Hermes 有 Discord 集成,可以直接配置语音频道,配合 Fish Speech 就能实现你说的语音对话体验。回头看有空可以试试看效果。
-
