声音复刻-录音指导
音频规范
需要保证复刻音频的质量,我们推荐您上传的音频文件符合以下规范:
类别 | 建议 |
---|
音频时长 | 建议为10s~30s的音频。 |
录制环境 | 录音环境的选择主要考虑降低噪音和混响,建议使用10平方米以内的小房间进行录音,有吸音装置的房间是理想环境。可使用价格低廉的吸音棉对房间进行改造,目的是为了改变声波的平面反射为漫反射,降低混响。
1.尽量在同一声学环境下录制,避免过于喧哗的背景音和噪音,音频非拼接而成。
2.避免远场环境下录制,建议离麦克风50cm之内,并需要保持位置、距离稳定,防止音量大小不一致。不要让讲话的气流正对麦克风,防止喷麦造成的噪音。
3.尽量在自然对话状态下录制,对比刻意压低声线/呢喃获得的音色会更贴合本人。 |
音频质量 | 1.必须仅含有一个人在说话,避免多个人同时说话。
2.说话人发音及音质越清晰、复刻质量越高。如说话人喉音/声音底噪严重,则复刻音频喉音和底噪将会较为严重。
3.录音时需要保持音量大小、语速稳定、注意断句、避免口腔噪音(如口水声)、杂音、混响等情况。结合最终使用场景与人设加入适当演绎,避免朗读风格过于严重,并保持整体风格一致。
4.录音时尽量保持姿态稳定,减少不必要的肢体动作,椅子的响声、衣物的摩擦音、鼠标键盘的敲击声都是常见的人为噪声,需要格外注意细节。
5.如口误无需终止录音,可停顿1~2秒后,继续录制即可。文案中所有文字不必追求一字不落地完成,可以接受丢字、填字,保持语句通畅即可。 |
录制内容 | 建议在录音前熟悉文案,并确定好人设及演绎风格。尽量贴近复刻内容和主题,避免说话人韵律过于平淡,否则将得到较平的复刻效果。如需要复刻情绪韵律起伏较强的音频,请尽量输入表现力强的音频。尽量不要尝试复刻小孩或者老人的音频。 |
音频格式 | 目前支持pcm、m4a、mp3、wav、ogg、aac、ogg_opus格式,当格式为pcm时,保证采样率为24k |
音频分析工具推荐
录音质量的高低除人工倾听判断外,更多细节需要通过专业软件配合,我们推荐使用AdobeAudition(付费)或Audacity(免费),建议从官方网站下载使用。
badcase优化建议
- 音频中某一句突然变快:
尝试听一下原音频中,是否有个别词的语速与其他部分相比明显较快,可以切除音频中包含类似情况的句子后再次训练音色 - 整个音频速度非常快,特别是文案内容较长时:
尝试使用 split_sentence=1 这样的参数。详情可见:在线语音合成API - 参数基本说明