音频技术(Speech, Audio & Music Intelligence,简称SAMI),主要致力于语音合成、音频理解与处理、音乐理解与编辑、音乐生成等技术的研究和应用。我们的优势是基于音乐和音频的多模态技术融合与创新,自研算法追求更优性能。我们的愿景是用AI赋能创作者,激发创作灵感,为用户提供全新的交互体验,发掘声音的无限可能。
目前已经上线的产品:
我们使用业界领先的语音合成(TTS)技术,将文本转化为自然流畅、情感丰富、高度拟人化的语音,支持多语种、多方言,现已具备几十种音色并支持个性化定制,满足各类场景对文本朗读的需求。
应用场景 | 场景描述 | 客户案例 |
---|---|---|
有声朗读 | 用于小说、新闻、广告等多种语音播报场景,风格多样,情感丰富 | |
游戏场景 | 定制npc发音人,个性化语音包 | |
虚拟人物 | 适配不同虚拟形象的特色声音,可输出时间戳匹配口型,效果更真实 | |
智能创作 | 为音视频编辑的配音、转场提供多样化的精品音色,让创作更精彩 |
节拍检测能够自动分析获取音乐的节拍点,发现音乐的更多信息,辅助音乐资源利用。
目前支持在线OpenAPI调用以及离线SDK调用。
音乐转谱将输入的音频进行分析,提取导出MIDI格式内容,包含音乐的音符、力度、时长等信息。
音乐标签通过人声、曲风、情绪、场景、语言、二级曲风等多个维度分析音乐,自动生成各维度下的标签。
音源分离能够自动分析歌曲中的人声和伴奏,进行提取分离用于K歌、二次创作等多种玩法。
自研基于dsp算法和深度学习的回声消除、噪声抑制、声音增强,兼顾强降噪与高保真。针对不同场景,采取精准优化措施,尤其在音乐场景下,可以在保证人声和背景音乐无损伤的前提下,更好地抑制噪声。
目前可以通过接入音频技术SDK使用该功能。
提供多种音频剪辑能力,包含
预置变声特效 (花栗鼠、小哥哥、麦霸、扩音器、机器人、没电了、小黄人、巨人)
混响美化音效模板 (KTV、大自然、回音、演唱会、录音棚、音乐厅、空灵),
支持音频检测 (音高检测、语音活性检测、音量检测、响度检测、延迟检测),
单点音效器(动态压缩器、合唱音效、失真音效、回声音效、滤波器、调整声像、限制器、混响、颤音、升降调、增益),以及变速不变调等
目前可以通过接入音频技术SDK使用该功能。