You need to enable JavaScript to run this app.
导航
声音复刻2.0-最佳实践
最近更新时间:2025.04.03 16:04:41首次发布时间:2024.01.15 10:46:55
我的收藏
有用
有用
无用
无用

:::tip

本文针对声音复刻能力,基于一些用户的常见问题进行一定的实践指导,供参考。
:::

相关概念
  • 语音大模型:声音复刻背后使用的是语音大模型,相较于小模型而言具有更好的拟人度和复刻效果,但由于大模型本身的特性(如幻想等),会小概率出现截断、吞音、音色突变等问题;
  • 声音复刻2.0:也叫ICL复刻技术,全称是In-context learning,指的是声音复刻的输入只需要10-15s的音频,即可实现音色复刻;
  • 参考音频:即用来给大模型进行复刻的参考音频,可以理解为是语音大模型的输入prompt。

说明

注意:参考音频主要供模型提取说话人的主要特征,是一个平均化的过程,在这个过程中不会有实际的训练环节,所以参考音频不需要情感多变、过长,只需要说话人平稳状态下、带有主要说话特征的10-15s音频即可。

最佳实践

训练音频Prompt 设计

相对而言,整个ICL声音复刻的过程中,prompt起到了最重要的作用。声音复刻大模型是会充分学习音频的特征并进行还原,因此一个好的prompt在多数情况下会获得较好的复刻效果。如果用户会忽视prompt的选择,选取了带有噪声、长度过长、多人声、人声不清晰、方言严重、带有一些声音毛刺的prompt从而使得最终复刻效果不太理想。
下面展示一些简单的prompt调优的例子
例1:
原始prompt(30s)

随机prompt.mp3
未知大小

经过分析,音频中带有一定的底噪,且末尾有一定的截断,这都会一定程度上影响合成结果,我们选择其中音质相对较好的部分作为prompt(10s-15s即可):
调优prompt.wav
未知大小

最终复刻的效果如下:
效果.wav
未知大小

例2:
原始prompt:
case2.mp3
未知大小

经过分析,音频的前两秒有glich(吞音、砸吧嘴等),我们将这部分剔除:
case2_prompt.wav
未知大小

例3:
原始prompt:
case3.wav
未知大小

经过分析,音频的第一句质量较差,我们将这部分剔除:
case3_prompt.wav
未知大小

说明

核心要点:

  • 训练音频Prompt 长度在10-15s,过长的音频系统会自动截断,有可能会保留瑕疵音频而影响效果;使用wav格式
  • 尽可能的选取低噪声、单人且人声效果较好的单轨音频(不用双声道录制)作为prompt;
  • 进一步的调优可以利用降噪等手段,保证音频人声的清晰度。
  • 不要出现情感过大的起伏
  • 对于中英混情况,prompt 中最好能同时覆盖中英文

合成文本长度

一般而言,合成文本长度不宜过长,这里的长文本的定义是指合成的音频超过60s的文本(正常语速下大于300字的文本,如果使用SML的话建议不要超过150字),对于长文本,建议先切分后再依次经过声音复刻合成片段,再将片段按顺序拼接成最终的音频。

常见问题FAQ
  • 合成声音中偶现漏读、错读如何处理
    • 如上所述,大模型有较小概率出现上述问题,属合理情况,建议按照 prompt 调优 -> 合成文本切片段 -> 尝试多次合成的方式解决
  • 合成声音中多音字读错如何处理
  • 合成声音的音质不佳怎么办
    • 一般而言是 prompt 中含有底噪所致,如示例prompt在调优后依然有底噪,会导致结果也有一定噪声
    • 对于更为高质量的效果要求,目前大模型声音复刻暂时未能满足音质效果,可考虑使用精品超自然音色定制方案
  • 对比效果最好满足原始音频使用24k单声道,这样跟算法模型采用的prompt最匹配