音频技术--音频技术-火山引擎

文档中心

导航

音频技术

最近更新时间：2023.09.14 10:28:57首次发布时间：2021.08.23 16:15:12

音频技术（Speech, Audio & Music Intelligence，简称SAMI），主要致力于语音合成、音频理解与处理、音乐理解与编辑、音乐生成等技术的研究和应用。我们的优势是基于音乐和音频的多模态技术融合与创新，自研算法追求更优性能。我们的愿景是用AI赋能创作者，激发创作灵感，为用户提供全新的交互体验，发掘声音的无限可能。

目前已经上线的产品：

文本朗读（TTS）
节拍检测（BeatTracking）
音乐转谱（MIDI）
音乐标签（MusicTagging）
音源分离（MusicSourceSeparate）
音频降噪与增强（AudioNoiseReductionAndEnhancement）
音效处理与变声 (SoundEffectProcessingAndVoiceChange)

文本朗读（TTS）

我们使用业界领先的语音合成（TTS）技术，将文本转化为自然流畅、情感丰富、高度拟人化的语音，支持多语种、多方言，现已具备几十种音色并支持个性化定制，满足各类场景对文本朗读的需求。

应用场景

应用场景	场景描述	客户案例
有声朗读	用于小说、新闻、广告等多种语音播报场景，风格多样，情感丰富
游戏场景	定制npc发音人，个性化语音包
虚拟人物	适配不同虚拟形象的特色声音，可输出时间戳匹配口型，效果更真实
智能创作	为音视频编辑的配音、转场提供多样化的精品音色，让创作更精彩

节拍检测（BeatTracking）

节拍检测能够自动分析获取音乐的节拍点，发现音乐的更多信息，辅助音乐资源利用。
目前支持在线OpenAPI调用以及离线SDK调用。

音乐转谱（MIDI）

音乐转谱将输入的音频进行分析，提取导出MIDI格式内容，包含音乐的音符、力度、时长等信息。

音乐标签（MusicTagging）

音乐标签通过人声、曲风、情绪、场景、语言、二级曲风等多个维度分析音乐，自动生成各维度下的标签。

音源分离（MusicSourceSeparate）

音源分离能够自动分析歌曲中的人声和伴奏，进行提取分离用于K歌、二次创作等多种玩法。

音频降噪与增强（AudioNoiseReductionAndEnhancement）

自研基于dsp算法和深度学习的回声消除、噪声抑制、声音增强，兼顾强降噪与高保真。针对不同场景，采取精准优化措施，尤其在音乐场景下，可以在保证人声和背景音乐无损伤的前提下，更好地抑制噪声。
目前可以通过接入音频技术SDK使用该功能。

音效处理与变声 (SoundEffectProcessingAndVoiceChange)

提供多种音频剪辑能力，包含
预置变声特效 (花栗鼠、小哥哥、麦霸、扩音器、机器人、没电了、小黄人、巨人)
混响美化音效模板 (KTV、大自然、回音、演唱会、录音棚、音乐厅、空灵)，
支持音频检测 (音高检测、语音活性检测、音量检测、响度检测、延迟检测），
单点音效器（动态压缩器、合唱音效、失真音效、回声音效、滤波器、调整声像、限制器、混响、颤音、升降调、增益），以及变速不变调等
目前可以通过接入音频技术SDK使用该功能。