产品简介--语音技术-火山引擎

文档中心

导航

产品简介

最近更新时间：2025.03.27 15:00:32首次发布时间：2024.04.28 14:17:35

产品说明

依托新一代大模型能力，火山语音模型能够根据上下文，智能预测文本的情绪、语调等信息，并生成超自然、高保真、个性化的语音，以满足不同用户的个性化需求。相较于传统语音合成技术，大语音模型在口语自然度、连贯性、拟人度、音质、韵律、气口、情感、语气词表达等各方面为客户带来更生动、更具情感表现力的听觉体验。

产品优势

**自动情感理解和演绎：**依托新一代语音大模型能力，语音模型可以根据上下文，智能预测文本情绪、语调等信息，并进行自然演绎；
**高自然度：**在口语自然度、连贯性、拟人度、音质、韵律、气口、情感、语气词表达等各方面，可以带来更生动、更具情感表现力的听觉体验；
个性化：可提供多种风格的超自然音色，包括趣味口音、角色扮演等类型，并且支持超强混音能力，用户可以将不同声音自由组合，生成新的声音，以满足不同用户的个性化需求，适配趣味聊天、视频剪辑、有声阅读等多个场景。

功能特性

功能	大模型语音合成	传统语音合成
音色数量	120。音色列表--语音技术-火山引擎	84。音色列表--语音技术-火山引擎
算法效果	自然度、音质、韵律、气口、情感、语气词表达接近真人的表达	合成效果流畅自然、发音清晰。
支持语种	语种：中文、英文、日文、西班牙方言口音：台普、北京、广州普、四川、河南、山东普、长沙	语种：中、英、日、葡萄牙、西班牙、泰、越南、印尼方言口音：东北、西安、上海、广西普、台普、粤语、天津、川渝、郑州、湖南普、长沙
SSML	输出单向流式/非流式接口：支持，SSML标记语言--语音技术-火山引擎输入输出双向流式接口：不支持，大模型实时吐字场景无法预知文本，不适用	支持，SSML标记语言--语音技术-火山引擎
接入方案	输出单向流式/非流式接口：流式&非流式API、在线SDK 大模型语音合成API--语音技术-火山引擎输入输出双向流式接口：API 大模型语音合成双向流式API--语音技术-火山引擎	流式&非流式API 离线SDK
部署方案	公共云	公共云、离线sdk
数据需求低	可实现一种声音说中英，不受限于发音人语言能力只需要单语种数据，无需针对不同语种分别录音	无跨语种迁移能力
延迟	输出单向流式/非流式接口：流式调用首包耗时在600ms左右；非流式调用实时率RTF约为0.5；支持流式逐字级别输出，用户体感延迟低。输入输出双向流式接口：支持流式逐字级别输入级输出，进一步降低基于大模型的语音交互时延，用户体感延迟低	流式调用首包耗时在300ms左右非流式调用实时率RTF约为0.1-0.3 支持流式逐字级别输出，用户体感延迟低
合成音频采样率	输出单向流式/非流式接口：支持24K、16k、8k 输入输出双向流式接口：支持48K、24K、16k、8k	支持24K、16k、8k，不支持48K
语音输出音频格式	输出单向流式/非流式接口：pcm / ogg_opus / mp3，默认为 pcm。注意：wav 不支持流式输入输出双向流式接口：cm / ogg_opus / mp3，默认为 pcm。	支持pcm/wav/mp3/opus格式
其他功能	输出单向流式/非流式接口：支持语速调整输入输出双向流式接口：支持字级别时间戳、语速调整、音调调整、markdown、公式播报，Latex能力 TTS大模型音色Latex能力支持说明	支持音素级别时间戳、语速调整、音调调整、音高调整

应用场景

应用场景	场景描述
聊天陪伴	用于豆包等同等类型聊天陪伴场景，通过文本预测控制音色的重音、停顿，赋予音色多样的语气，提供超自然拟真人的交互体验
有声书合成	在自然播报的基础上，实现笑声、哭腔等副语言现象建模能力，让AI演绎更加真实生动
音视频配音	打造多维场景音色矩阵，覆盖视频趣味剪辑、专业创作、广告营销、新闻播报、电商带货等，为各类场景提供适配性强、国民认知度高的音色
数字人播报	高拟人度表现，与数字人虚拟形象做好口型驱动配合
语音客服	用于智能客服场景，自然的TTS播报可以有类真人客服的表现