产品简介--语音技术-火山引擎

文档中心

导航

产品简介

最近更新时间：2025.02.07 18:34:50首次发布时间：2022.08.31 11:27:09

产品说明

火山引擎大模型声音复刻是使用全新自研语音大模型算法打造的高效化的轻量级音色定制方案。用户在开放环境中，只需录制5s数据，即可即时完成对用户音色、说话风格、口音和声学环境音的复刻。

产品优势

秒级训练音频：仅需在开放环境下录制最短5s音频即可快速复刻，录制成本极低。
秒级训练时长：音频上传成功后，秒级别完成模型复刻，几乎无等待时延，可立即调用合成试听。
低成本调优：如果上传的训练音频效果不满意，可以更换音频再次训练，每个音色可支持用户上传训练10次。
高度还原：高度还原真人音色特点、说话风格、口音和声学环境，2.0版本对于高表现力声音，如口音、特色音色等，还原度进一步提升。
跨语种迁移：录制一个语种的声音，可支持中文、英文、日语、西班牙语（墨西哥口音）、葡萄牙语（巴西口音）、印尼语多个语种的合成，让声音轻松说外语。
技术领先：全新大模型技术，**使用全新自研算法，提供高品质的复刻能力，效果行业领先。

应用场景

视频配音：复刻特色声音，如IP、搞怪等特色化声音，为创作带来更多元更高效的方式，激发创作灵感。
数字人驱动：配合数字人形象定制，实现形象+声音完整的个性化形象定制能力。
语音助手：复刻独具特色的品牌人机交互音色，例如家人朋友等，作为手机助手、导航语音、游戏趣味语音等，为用户提供独特的交互体验。
在线教育：复制老师音色，可以减少老师重复性，标准化讲解的工作，提升授课效能，降低老师长时间授课带来的咽喉损害。
有声阅读：快速复刻家人朋友的声音，用声音来实现“分身术”，随时随地给予用户亲切、温暖的阅读陪伴，为用户打造定制化的听书体验。

产品体验

请点击链接进入声音复刻大模型能力体验