音频技术-火山引擎

立即注册

能力列表

发掘声音的无限可能

文本朗读

文本转语音，自然流畅、拟人程度极高、停顿和情感到位、支持多语言多场景，具备几十种音色并支持个性化定制

说唱合成

说唱合成，将文字转换成RAP，配合背景音乐，自动合成自然流畅、音色清晰、节奏感强的说唱歌曲

歌唱合成

用户可借助AI编曲或已有曲目，结合歌唱合成能力，合成特定高保真音色的完整歌唱曲目，适用于趣味性音乐创作场景，敬请期待

音色转换

通过AI赋能将输入的语音用目标说话人的音色说出来，同时保持说话的内容不变，就像是“柯南领结”的效果

视频字幕

通过AI赋能为一段语音或视频转译文字，提供语音转文本能力。将ASR和OCR结合，为口播类视频提供文字脚本

音频降噪与增强

自研的基于深度学习的回声消除/噪声抑制算法，更强抑制能力更高保真度。针对音乐场景优化，保证人声和背景音乐无损伤的情况下，更大程度地噪声抑制

音频剪辑与声音美化

提供多种音频剪辑工具，例如音频浓缩(去无效词/静音片段等)、几十种音色变声、几十种混响等美化音效、背景人声分离提取等工具，既可提升音色的质感，也可生成创新音频效果，打造好玩有趣的声音

音乐理解

提供音乐的结构化标签理解、轻重节拍检测、音乐高潮分析、MIDI自动提取等能力

文本朗读

文本转语音，自然流畅、拟人程度极高、停顿和情感到位、支持多语言多场景，具备几十种音色并支持个性化定制

说唱合成

说唱合成，将文字转换成RAP，配合背景音乐，自动合成自然流畅、音色清晰、节奏感强的说唱歌曲

歌唱合成

用户可借助AI编曲或已有曲目，结合歌唱合成能力，合成特定高保真音色的完整歌唱曲目，适用于趣味性音乐创作场景，敬请期待

音色转换

通过AI赋能将输入的语音用目标说话人的音色说出来，同时保持说话的内容不变，就像是“柯南领结”的效果

视频字幕

通过AI赋能为一段语音或视频转译文字，提供语音转文本能力。将ASR和OCR结合，为口播类视频提供文字脚本

音频降噪与增强

音频剪辑与声音美化

音乐理解

提供音乐的结构化标签理解、轻重节拍检测、音乐高潮分析、MIDI自动提取等能力

解决方案

更智能的音频处理解决方案

一站式音频编辑方案

一站式音频编辑软件，变“听”为“看”，通过剪文本来剪音频，节省 90% 剪辑时间。并且包含十余种音质优化功能

智能K歌解决方案

智能K歌方案提供一整套智能K歌物料生产、回声消除、多维度K歌打分等能力。其中K歌打分包含音准、气息、节奏、情感、歌词处理等多维度，超越行业内绝大部分打分机制

直播实时音频处理方案

直播场景的整个链路可以大概分成3部分：推流端、传输网络、拉流端。其中推流端和拉流端可以理解为内容的生产端和内容的消费端

一站式音频编辑方案

一站式音频编辑软件，变“听”为“看”，通过剪文本来剪音频，节省 90% 剪辑时间。并且包含十余种音质优化功能

智能K歌解决方案

直播实时音频处理方案

直播场景的整个链路可以大概分成3部分：推流端、传输网络、拉流端。其中推流端和拉流端可以理解为内容的生产端和内容的消费端

产品优势

我们的核心产品优势

专业稳定

在C端有超大量级用户群体，当前已稳定支持超高并发、大规模调用场景，专业稳定

立即咨询

场景广泛

在短视频/直播/广告营销/音视频剪辑/音频通信/教育播报/游戏/K歌等场景都有大量落地案例，包括抖音集团以及toB客户，受众广泛

立即咨询

能力丰富

音频编辑套件，能力非常丰富，涵盖了音频/音乐编辑处理所需的几十项专业能力，可极大地帮助客户提升音频/音乐方面的处理效率

立即咨询

实时高效

在各个对应的使用场景中，SDK/API多种交付形态，算法延迟低、功耗小、内存占用低

立即咨询

专业稳定

在C端有超大量级用户群体，当前已稳定支持超高并发、大规模调用场景，专业稳定

场景广泛

在短视频/直播/广告营销/音视频剪辑/音频通信/教育播报/游戏/K歌等场景都有大量落地案例，包括抖音集团以及toB客户，受众广泛

能力丰富

音频编辑套件，能力非常丰富，涵盖了音频/音乐编辑处理所需的几十项专业能力，可极大地帮助客户提升音频/音乐方面的处理效率

实时高效

在各个对应的使用场景中，SDK/API多种交付形态，算法延迟低、功耗小、内存占用低

应用场景

文本朗读的广泛应用

音视频编辑

• 赋能创作者，为创作者提供丰富的短视频/中长视频的音频编辑能力，降低创作门槛，大幅提升效率

互娱直播

• 智能音频创作能力赋能互娱直播场景，为博主提供更加便捷丰富的直播工具

辅助创作

• 为创作者提供丰富的音视频创作工具，旋律生成、编曲伴奏生成、歌唱合成、音乐美化、音效处理等

游戏场景

• 提供多种趣味变声音效、npc智能配音、游戏配乐、直播降噪等能力

广告营销

• 支持个性化定制的合成音色用于广告播报，提供海量曲库、音乐结构化标签等用于广告素材储备

K歌场景

• 提供一整套智能K歌物料生产、回声消除、多维度K歌打分等能力，提升客户的K歌体验，增加互动

应用场景

文本朗读的广泛应用

音视频编辑

互娱直播

辅助创作

游戏场景

广告营销

K歌场景

音视频编辑

• 赋能创作者，为创作者提供丰富的短视频/中长视频的音频编辑能力，降低创作门槛，大幅提升效率

互娱直播

• 智能音频创作能力赋能互娱直播场景，为博主提供更加便捷丰富的直播工具

辅助创作

• 为创作者提供丰富的音视频创作工具，旋律生成、编曲伴奏生成、歌唱合成、音乐美化、音效处理等

游戏场景

• 提供多种趣味变声音效、npc智能配音、游戏配乐、直播降噪等能力

广告营销

• 支持个性化定制的合成音色用于广告播报，提供海量曲库、音乐结构化标签等用于广告素材储备

K歌场景

• 提供一整套智能K歌物料生产、回声消除、多维度K歌打分等能力，提升客户的K歌体验，增加互动

行业客户

来自各行业客户的信任

使用指南

欢迎查看使用指南

控制台概述

使用音频技术管控台管理音频技术服务能力和应用接入，你可以购买并开通指定服务能力，创建应用得到应用appkey、获取鉴权token进行应用接入，以及了解服务监控使用情况

产品接入

产品的技术对接文档以及开发demo等下载链接

一键启动火山引擎之旅

联系我们