传统音频剪辑软件看波形图很难定位到某个时间段具体说了什么内容,因此简音通过ASR技术将所有的语音转化为文本对应的时间戳,用户可以一目了然通过文本了解到每段音频对应的内容,同时基于文本进行音频内容的编辑。ASR提供的文本时间戳,可以精确到字词级别
剪辑用户通常会对对话中出现的废词、静音片段进行编辑,而传统方案需要反复听,反复定位时间戳以达到最好的剪辑效果,而这次简音提供了基于ASR一键式的识别(识别废词,识别静音片段),用户可以通过点击进行高亮,再次点击一键删除,以满足最好的听感效果,大大节省编辑时长
实际录制阶段,环境噪音与硬件设备会极大影响最终听感效果,而简音提供了深度的实时降噪算法,可以将用户人声增强,极大程度还原用户人声,满足听感体验
对话的过程中说错话的情况时常会发生,而编辑阶段重新录制的成本较高,因此基于音色克隆+TTS,简音支持用户仅输入几分钟的任意物料,就可以克隆当前用户音色,并满足生成音频的需求,基于几个文本的输入就可以修改语音内容,避免重新录制所带来的环境+时间+编辑成本
分段录制在录制过程中非常常见,而由于情绪、场景、设备、体裁的变化,往往多段录制的内容会呈现音量大小不一的情况,同时结合配乐的场景,整体音量调节会更加复杂,而简音提供了一键式的响度均衡能力,不仅可以针对用户分段录制的多段音频进行响度的归一化,也能够智能识别用户在说话的段落,智能将音乐调小,实现动态均衡
配乐通常是个比较刚需的场景,去丰富听感的多样性,因此简音基于对话的内容与体裁能够智能推荐合适的配乐,去满足配乐的场景需求,丰富听感的多样性
本地编辑有些常见问题,例如文件传输不便,版本管理混乱,多人针对同一份文件的反馈只能零散地提出无法汇总和集中处理等,非常类似以前用word编辑文档,或者设计师用PS编辑设计图的体验。而简音的体验可以类比为Lark docs和Figma,全程云端完成,多人实时协作
不同媒体平台对音频格式往往有限制,传统剪辑用户通常会下载下非常大容量的音频再去通过第三方软件转格式,导致音频质量下降和降低效率。一站式剪辑方案提供格式转换功能
直接录制处理生成高音质视频,实时Speech enhancement