依托新一代大模型能力,火山语音模型能够根据上下文,智能预测文本的情绪、语调等信息。并生成超自然、高保真、个性化的语音,以满足不同用户的个性化需求。相较于传统语音合成技术,语音大模型能输出在自然度、音质、韵律、气口、情感、语气词表达等方面更像真人。
说明
目前该能力只对企业客户开放,如需测试或接入须先进行企业认证。
自动情感理解和演绎: 依托新一代语音大模型能力,语音模型可以根据上下文,智能预测文本情绪、语调等信息,并进行自然演绎;
高自然度: 在口语自然度、连贯性、拟人度、音质、韵律、气口、情感、语气词表达等各方面,可以带来更生动、更具情感表现力的听觉体验;
个性化: 可提供多种风格的超自然音色,包括趣味口音、角色扮演等类型,以满足不同用户的个性化需求,适配趣味聊天、视频剪辑、有声阅读等多个场景。
功能 | 大模型语音合成 | 传统语音合成 | |
---|---|---|---|
接口类型 | 输出单向流式/非流式接口 | 输入输出双向流式接口【新】 | 输出单向流式/非流式接口 |
音色数量 | 26。音色列表--语音技术-火山引擎 | 84。 音色列表--语音技术-火山引擎 | |
算法效果 | 自然度、音质、韵律、气口、情感、语气词表达接近真人的表达 | 合成效果流畅自然、发音清晰。 | |
支持语种 |
|
| |
SSML | 支持,SSML标记语言--语音技术-火山引擎 | 不支持,大模型实时吐字场景无法预知文本,不适用 | 支持,SSML标记语言--语音技术-火山引擎 |
接入方案 | 流式&非流式API、在线SDK |
| |
部署方案 | 公共云 | 公共云、离线sdk | |
合成音频采样率 | 支持24K,不支持16k、8k(开发中) | 支持48K、24K、16k、8k | 支持24K、16k、8k,不支持48K |
语音输出音频格式 | pcm / ogg_opus / mp3,默认为 pcm。注意:wav 不支持流式 | pcm / ogg_opus / mp3,默认为 pcm。 | 支持pcm/wav/mp3/opus格式 |
其他功能 | 支持语速调整 | 支持字级别时间戳、语速调整、音调调整、markdown、公式播报 | 支持音素级别时间戳、语速调整、音调调整、音高调整 |
应用场景 | 场景描述 |
---|---|
有声书合成 | 用于小说的听书业务,支持单播/双播/多播等做种AI演播形式 |
音视频配音 | 用于短视频剪辑场景,通过一些趣味、IP音色等用于视频的旁白配音音 |
数字人播报 | 高拟人度表现,与数字人虚拟形象做好口型驱动配合 |
教育教学 | AI播报一些教程课件,或者为虚拟老师进行配音 |
语音客服 | 用于智能客服场景,自然的TTS播报可以有类真人客服的表现 |