You need to enable JavaScript to run this app.
导航
产品简介
最近更新时间:2025.02.07 18:20:49首次发布时间:2024.04.28 14:17:35

产品说明

依托新一代大模型能力,火山语音模型能够根据上下文,智能预测文本的情绪、语调等信息,并生成超自然、高保真、个性化的语音,以满足不同用户的个性化需求。相较于传统语音合成技术,大语音模型在口语自然度、连贯性、拟人度、音质、韵律、气口、情感、语气词表达等各方面为客户带来更生动、更具情感表现力的听觉体验。

说明

目前该能力只对企业客户开放,如需测试或接入须先进行企业认证。

产品优势

  • 自动情感理解和演绎:依托新一代语音大模型能力,语音模型可以根据上下文,智能预测文本情绪、语调等信息,并进行自然演绎;
  • 高自然度:在口语自然度、连贯性、拟人度、音质、韵律、气口、情感、语气词表达等各方面,可以带来更生动、更具情感表现力的听觉体验;
  • 个性化:可提供多种风格的超自然音色,包括趣味口音、角色扮演等类型,并且支持超强混音能力,用户可以将不同声音自由组合,生成新的声音,以满足不同用户的个性化需求,适配趣味聊天、视频剪辑、有声阅读等多个场景。

功能特性

功能

大模型语音合成

传统语音合成

音色数量

120。音色列表--语音技术-火山引擎

84。 音色列表--语音技术-火山引擎

算法效果

自然度、音质、韵律、气口、情感、
语气词表达接近真人的表达

合成效果流畅自然、发音清晰。

支持语种

  • 语种:中文、英文、日文、西班牙
  • 方言口音:台普、北京、广州普、四川、河南、山东普、长沙
  • 语种:中、英、日、葡萄牙、西班牙、泰、越南、印尼
  • 方言口音:东北、西安、上海、广西普、台普、粤语、天津、川渝、郑州、湖南普、长沙

SSML

支持,SSML标记语言--语音技术-火山引擎

接入方案

  • 流式&非流式API
  • 离线SDK

部署方案

公共云

公共云、离线sdk

数据需求低

  • 可实现一种声音说中英,不受限于发音人语言能力
  • 只需要单语种数据,无需针对不同语种分别录音

无跨语种迁移能力

延迟

  • 输出单向流式/非流式接口:流式调用首包耗时在600ms左右;非流式调用实时率RTF约为0.5;支持流式逐字级别输出,用户体感延迟低。
  • 输入输出双向流式接口:支持流式逐字级别输入级输出,进一步降低基于大模型的语音交互时延,用户体感延迟低。
  • 流式调用首包耗时在300ms左右
  • 非流式调用实时率RTF约为0.1-0.3
  • 支持流式逐字级别输出,用户体感延迟低

合成音频采样率

  • 输出单向流式/非流式接口:支持24K、16k、8k
  • 输入输出双向流式接口:支持48K、24K、16k、8k

支持24K、16k、8k,不支持48K

语音输出音频格式

  • 输出单向流式/非流式接口:pcm / ogg_opus / mp3,默认为 pcm。注意:wav 不支持流式
  • 输入输出双向流式接口:cm / ogg_opus / mp3,默认为 pcm。

支持pcm/wav/mp3/opus格式

其他功能

  • 输出单向流式/非流式接口:支持语速调整
  • 输入输出双向流式接口:支持字级别时间戳、语速调整、音调调整、markdown、公式播报,Latex能力 TTS大模型音色Latex能力支持说明

支持音素级别时间戳、语速调整、音调调整、音高调整

应用场景

应用场景

场景描述

聊天陪伴

用于豆包等同等类型聊天陪伴场景,通过文本预测控制音色的重音、停顿,赋予音色多样的语气,提供超自然拟真人的交互体验

有声书合成

在自然播报的基础上,实现笑声、哭腔等副语言现象建模能力,让AI演绎更加真实生动

音视频配音

打造多维场景音色矩阵,覆盖视频趣味剪辑、专业创作、广告营销、新闻播报、电商带货等,为各类场景提供适配性强、国民认知度高的音色

数字人播报

高拟人度表现,与数字人虚拟形象做好口型驱动配合

语音客服

用于智能客服场景,自然的TTS播报可以有类真人客服的表现