语音合成(TTS, Text to Speech),能将文本转换成人类声音。它运用了语音合成领域突破性的端到端合成方案,能提供高保真、个性化的音频。
特性 | 说明 |
---|---|
语音合成 | 【在线合成】单次调用支持1024字节,约等于使用UTF-8编码的300个汉字; |
精品长文本语音合成 | 适用于需要批量合成较长文本,且对返回时效性无强需求的场景,单次可支持10万字符以内文本,异步返回音频。对于输入的文本请求,会进入集群排队处理,返回时长会受集群负载影响波动,通常返回时间会在数十分钟,最长返回时延3小时以内。如出现长时间未返回情况,如无报错,请耐心等待。提供“普通版”和“情感预测版”两种方案。 |
音色选择 | 提供多语音、多种音色以适配不同场景的语音合成需求 |
语速控制 | 自定义速度,最多可使其比正常语速快或慢4倍 |
音高控制 | 自定义所选语音的音高,最多可高于或低于默认输出 20 个半音 |
音量增益控制 | 将输出音量最高调至 16db 或最低调至 -96db |
情感强度控制 | 自定义情感强度,支持20档强度调节 |
参数调节 | 使用 SSML 标记添加停顿、数字、日期和时间格式以及其他发音指令,以自定义您的语音 |
合成结果 | 高质量合成语音 |
音频格式 | 支持pcm/wav/mp3/opus格式 |
集成方式 | 【 API】 |
多领域精品音色矩阵:采用行业最领先的生成式神经网络让AI演绎更加真实生动的同时深入不同领域打磨使音色更具业务属性,为各行业提供多风格全年龄段的精品音色。
多语言多情感能力:支持中、英、日等多国家语种,针对不同语种可提供不同地区的口音。具有丰富的情感演绎能力,可淋漓尽致地表达出开心、悲伤、愤怒、惊讶、恐惧、厌恶、平和等多种情感,带给用户极致的听觉体验
高知名度特色性强:提供如IP、方言等特色音色,达到亿级别使用,音色国民知名度高传播广。
稳定适配不同网络环境:具有“在线+离线”配套能力,可自适应网络进行离在线切换,有效避免无网、弱网时的延迟与卡顿。
高品质权威认证:具有AI国检中心颁发的语音合成增强级检验检测证书,在基本要求以及扩展要求上已达最高等级标准,音色MOS评分最高达4.64分。