声音复刻2.0-最佳实践--语音技术-火山引擎

文档中心

导航

声音复刻2.0-最佳实践

最近更新时间：2025.04.03 16:04:41首次发布时间：2024.01.15 10:46:55

:::tip

本文针对声音复刻能力，基于一些用户的常见问题进行一定的实践指导，供参考。
:::

训练音频Prompt 设计

相对而言，整个ICL声音复刻的过程中，prompt起到了最重要的作用。声音复刻大模型是会充分学习音频的特征并进行还原，因此一个好的prompt在多数情况下会获得较好的复刻效果。如果用户会忽视prompt的选择，选取了带有噪声、长度过长、多人声、人声不清晰、方言严重、带有一些声音毛刺的prompt从而使得最终复刻效果不太理想。
下面展示一些简单的prompt调优的例子
例1:
原始prompt（30s）

随机prompt.mp3

未知大小

经过分析，音频中带有一定的底噪，且末尾有一定的截断，这都会一定程度上影响合成结果，我们选择其中音质相对较好的部分作为prompt（10s-15s即可）：

调优prompt.wav

未知大小

最终复刻的效果如下：

效果.wav

未知大小

例2:
原始prompt：

case2.mp3

未知大小

经过分析，音频的前两秒有glich（吞音、砸吧嘴等），我们将这部分剔除：

case2_prompt.wav

未知大小

例3:
原始prompt:

case3.wav

未知大小

经过分析，音频的第一句质量较差，我们将这部分剔除：

case3_prompt.wav

未知大小

说明

核心要点：

训练音频Prompt 长度在10-15s，过长的音频系统会自动截断，有可能会保留瑕疵音频而影响效果；使用wav格式
尽可能的选取低噪声、单人且人声效果较好的单轨音频（不用双声道录制）作为prompt；
进一步的调优可以利用降噪等手段，保证音频人声的清晰度。
不要出现情感过大的起伏
对于中英混情况，prompt 中最好能同时覆盖中英文

合成文本长度

一般而言，合成文本长度不宜过长，这里的长文本的定义是指合成的音频超过60s的文本（正常语速下大于300字的文本，如果使用SML的话建议不要超过150字），对于长文本，建议先切分后再依次经过声音复刻合成片段，再将片段按顺序拼接成最终的音频。

常见问题FAQ

合成声音中偶现漏读、错读如何处理
- 如上所述，大模型有较小概率出现上述问题，属合理情况，建议按照 prompt 调优 -> 合成文本切片段 -> 尝试多次合成的方式解决
合成声音中多音字读错如何处理
- 可通过SSML标记语言进行快速修复，SSML标记语言--语音技术-火山引擎；如果是通用频繁出现的问题，也可以反馈给我们来做整体修复
合成声音的音质不佳怎么办
- 一般而言是 prompt 中含有底噪所致，如示例prompt在调优后依然有底噪，会导致结果也有一定噪声
- 对于更为高质量的效果要求，目前大模型声音复刻暂时未能满足音质效果，可考虑使用精品超自然音色定制方案
对比效果最好满足原始音频使用24k单声道，这样跟算法模型采用的prompt最匹配