产品简介--语音技术-火山引擎

文档中心

导航

产品简介

最近更新时间：2024.11.22 10:36:07首次发布时间：2021.12.20 14:44:12

产品说明

语音合成(TTS, Text to Speech)，能将文本转换成人类声音。它运用了语音合成领域突破性的端到端合成方案，能提供高保真、个性化的音频。

产品功能

特性	说明
语音合成	【在线合成】单次调用支持1024字节，约等于使用UTF-8编码的300个汉字；【离线合成】在无网或弱网环境下，支持在移动端、智能硬件等设备进行语音播报。
精品长文本语音合成	适用于需要批量合成较长文本，且对返回时效性无强需求的场景，单次可支持10万字符以内文本，异步返回音频。对于输入的文本请求，会进入集群排队处理，返回时长会受集群负载影响波动，通常返回时间会在数十分钟，最长返回时延3小时以内。如出现长时间未返回情况，如无报错，请耐心等待。提供“普通版”和“情感预测版”两种方案。【普通版】支持多国语言、多风格，覆盖全年龄段的精品音色，满足不同场景需求；【情感预测版】可自动区分旁白和对话，对话可支持七大情感，为您提供沉浸式听觉盛宴，适用于有声阅读领域。
音色选择	提供多语音、多种音色以适配不同场景的语音合成需求
语速控制	自定义速度，最多可使其比正常语速快或慢4倍
音高控制	自定义所选语音的音高，最多可高于或低于默认输出 20 个半音
音量增益控制	将输出音量最高调至 16db 或最低调至 -96db
情感强度控制	自定义情感强度，支持20档强度调节
参数调节	使用 SSML 标记添加停顿、数字、日期和时间格式以及其他发音指令，以自定义您的语音
合成结果	高质量合成语音
音频格式	支持pcm/wav/mp3/opus格式
集成方式	【 API】 -在线实时合成服务，支持可发起网络请求的服务或设备的语音合成请求； -批量合成服务，支持小说、新闻等长篇文本的批量合成；【SDK】 -轻巧简便，满足手机、智能硬件等快速集成，支持在/离线的服务调用；

产品优势

多领域精品音色矩阵：采用行业最领先的生成式神经网络让AI演绎更加真实生动的同时深入不同领域打磨使音色更具业务属性，为各行业提供多风格全年龄段的精品音色。
多语言多情感能力：支持中、英、日等多国家语种，针对不同语种可提供不同地区的口音。具有丰富的情感演绎能力，可淋漓尽致地表达出开心、悲伤、愤怒、惊讶、恐惧、厌恶、平和等多种情感，带给用户极致的听觉体验
高知名度特色性强：提供如IP、方言等特色音色，达到亿级别使用，音色国民知名度高传播广。
稳定适配不同网络环境：具有“在线+离线”配套能力，可自适应网络进行离在线切换，有效避免无网、弱网时的延迟与卡顿。
高品质权威认证：具有AI国检中心颁发的语音合成增强级检验检测证书，在基本要求以及扩展要求上已达最高等级标准，音色MOS评分最高达4.64分。

产品体验

请点击链接进入语音合成能力体验