一站式音频编辑方案-火山引擎

功能介绍

变“听”为“看”，节省 90% 剪辑时间

语音转文本

传统音频剪辑软件看波形图很难定位到某个时间段具体说了什么内容，因此简音通过ASR技术将所有的语音转化为文本对应的时间戳，用户可以一目了然通过文本了解到每段音频对应的内容，同时基于文本进行音频内容的编辑。ASR提供的文本时间戳，可以精确到字词级别

去除无效词/水词

剪辑用户通常会对对话中出现的废词、静音片段进行编辑，而传统方案需要反复听，反复定位时间戳以达到最好的剪辑效果，而这次简音提供了基于ASR一键式的识别（识别废词，识别静音片段），用户可以通过点击进行高亮，再次点击一键删除，以满足最好的听感效果，大大节省编辑时长

智能降噪

实际录制阶段，环境噪音与硬件设备会极大影响最终听感效果，而简音提供了深度的实时降噪算法，可以将用户人声增强，极大程度还原用户人声，满足听感体验

编辑文本取代重新录制音频

对话的过程中说错话的情况时常会发生，而编辑阶段重新录制的成本较高，因此基于音色克隆+TTS，简音支持用户仅输入几分钟的任意物料，就可以克隆当前用户音色，并满足生成音频的需求，基于几个文本的输入就可以修改语音内容，避免重新录制所带来的环境+时间+编辑成本

响度均衡

分段录制在录制过程中非常常见，而由于情绪、场景、设备、体裁的变化，往往多段录制的内容会呈现音量大小不一的情况，同时结合配乐的场景，整体音量调节会更加复杂，而简音提供了一键式的响度均衡能力，不仅可以针对用户分段录制的多段音频进行响度的归一化，也能够智能识别用户在说话的段落，智能将音乐调小，实现动态均衡

智能配乐

配乐通常是个比较刚需的场景，去丰富听感的多样性，因此简音基于对话的内容与体裁能够智能推荐合适的配乐，去满足配乐的场景需求，丰富听感的多样性

云端协作

本地编辑有些常见问题，例如文件传输不便，版本管理混乱，多人针对同一份文件的反馈只能零散地提出无法汇总和集中处理等，非常类似以前用word编辑文档，或者设计师用PS编辑设计图的体验。而简音的体验可以类比为Lark docs和Figma，全程云端完成，多人实时协作

音频格式转换

不同媒体平台对音频格式往往有限制，传统剪辑用户通常会下载下非常大容量的音频再去通过第三方软件转格式，导致音频质量下降和降低效率。一站式剪辑方案提供格式转换功能

高质量音频录制

直接录制处理生成高音质视频，实时Speech enhancement

功能介绍

变“听”为“看”，节省 90% 剪辑时间

语音转文本

传统音频剪辑软件看波形图很难定位到某个时间段具体说了什么内容，因此简音通过ASR技术将所有的语音转化为文本对应的时间戳，用户可以一目了然通过文本了解到每段音频对应的内容，同时基于文本进行音频内容的编辑。ASR提供的文本时间戳，可以精确到字词级别

去除无效词/水词

剪辑用户通常会对对话中出现的废词、静音片段进行编辑，而传统方案需要反复听，反复定位时间戳以达到最好的剪辑效果，而这次简音提供了基于ASR一键式的识别（识别废词，识别静音片段），用户可以通过点击进行高亮，再次点击一键删除，以满足最好的听感效果，大大节省编辑时长

智能降噪

实际录制阶段，环境噪音与硬件设备会极大影响最终听感效果，而简音提供了深度的实时降噪算法，可以将用户人声增强，极大程度还原用户人声，满足听感体验

编辑文本取代重新录制音频

对话的过程中说错话的情况时常会发生，而编辑阶段重新录制的成本较高，因此基于音色克隆+TTS，简音支持用户仅输入几分钟的任意物料，就可以克隆当前用户音色，并满足生成音频的需求，基于几个文本的输入就可以修改语音内容，避免重新录制所带来的环境+时间+编辑成本

响度均衡

分段录制在录制过程中非常常见，而由于情绪、场景、设备、体裁的变化，往往多段录制的内容会呈现音量大小不一的情况，同时结合配乐的场景，整体音量调节会更加复杂，而简音提供了一键式的响度均衡能力，不仅可以针对用户分段录制的多段音频进行响度的归一化，也能够智能识别用户在说话的段落，智能将音乐调小，实现动态均衡

智能配乐

配乐通常是个比较刚需的场景，去丰富听感的多样性，因此简音基于对话的内容与体裁能够智能推荐合适的配乐，去满足配乐的场景需求，丰富听感的多样性

云端协作

本地编辑有些常见问题，例如文件传输不便，版本管理混乱，多人针对同一份文件的反馈只能零散地提出无法汇总和集中处理等，非常类似以前用word编辑文档，或者设计师用PS编辑设计图的体验。而简音的体验可以类比为Lark docs和Figma，全程云端完成，多人实时协作

音频格式转换

不同媒体平台对音频格式往往有限制，传统剪辑用户通常会下载下非常大容量的音频再去通过第三方软件转格式，导致音频质量下降和降低效率。一站式剪辑方案提供格式转换功能

高质量音频录制

直接录制处理生成高音质视频，实时Speech enhancement

产品优势

我们的核心产品优势

01

支持多平台处理

支持多平台，包括Android、iOS、Mac、Linux。提高兼容性的同时提高工作效率。移动端录制的音频可同步至云端，支持进一步编辑操作，并支持多人协作

02

高音质录音

直接录制处理生成高音质视频，实时Speech enhancement ，无需外接高价格录制设备但可达到同样的录制效果

03

实时语音转文字

录制过程中实时转录文字，用户可进行基于文字的音频编辑

04

助力短视频创作

主打支持用户基于“口播”进行音频创作，同时生成的各类模板可以服务用户进行二次创作，降低用户生产带个人特质的创意短音频的门槛，辅助后续的视频创作

支持多平台处理

支持多平台，包括Android、iOS、Mac、Linux。提高兼容性的同时提高工作效率。移动端录制的音频可同步至云端，支持进一步编辑操作，并支持多人协作

高音质录音

直接录制处理生成高音质视频，实时Speech enhancement ，无需外接高价格录制设备但可达到同样的录制效果

实时语音转文字

录制过程中实时转录文字，用户可进行基于文字的音频编辑

助力短视频创作

主打支持用户基于“口播”进行音频创作，同时生成的各类模板可以服务用户进行二次创作，降低用户生产带个人特质的创意短音频的门槛，辅助后续的视频创作

应用场景

满足各种场景下的配乐需求

广告配音

• 支持短视频的音频剪辑，将音视频体裁深度结合，促进创作、探索和交流

长音频播客场景

• 打造一流的长音频剪辑体验，主打高品质录音，深度协同云端，降低长&短音频的生产门槛

短视频社交媒体

• 主打高品质录音，深度协同云端，降低短音频的生产门槛

应用场景

满足各种场景下的配乐需求

广告配音

长音频播客场景

短视频社交媒体

广告配音

• 支持短视频的音频剪辑，将音视频体裁深度结合，促进创作、探索和交流

长音频播客场景

• 打造一流的长音频剪辑体验，主打高品质录音，深度协同云端，降低长&短音频的生产门槛

短视频社交媒体

• 主打高品质录音，深度协同云端，降低短音频的生产门槛

使用指南

欢迎查看使用指南

控制台概述

使用音频技术管控台管理音频技术服务能力和应用接入，你可以购买并开通指定服务能力，创建应用得到应用appkey、获取鉴权token进行应用接入，以及了解服务监控使用情况

产品的技术对接文档以及API接入指南

一键启动火山引擎之旅