文本转语音,自然流畅、拟人程度极高、停顿和情感到位、支持多语言多场景,具备几十种音色并支持个性化定制
说唱合成,将文字转换成RAP,配合背景音乐,自动合成自然流畅、音色清晰、节奏感强的说唱歌曲
用户可借助AI编曲或已有曲目,结合歌唱合成能力,合成特定高保真音色的完整歌唱曲目,适用于趣味性音乐创作场景,敬请期待
通过AI赋能将输入的语音用目标说话人的音色说出来,同时保持说话的内容不变,就像是“柯南领结”的效果
通过AI赋能为一段语音或视频转译文字,提供语音转文本能力。将ASR和OCR结合,为口播类视频提供文字脚本
自研的基于深度学习的回声消除/噪声抑制算法,更强抑制能力更高保真度。针对音乐场景优化,保证人声和背景音乐无损伤的情况下,更大程度地噪声抑制
提供多种音频剪辑工具,例如音频浓缩(去无效词/静音片段等)、几十种音色变声、几十种混响等美化音效、背景人声分离提取等工具,既可提升音色的质感,也可生成创新音频效果,打造好玩有趣的声音
提供音乐的结构化标签理解、轻重节拍检测、音乐高潮分析、MIDI自动提取等能力
一站式音频编辑软件,变“听”为“看”,通过剪文本来剪音频,节省 90% 剪辑时间。并且包含十余种音质优化功能
智能K歌方案提供一整套智能K歌物料生产、回声消除、多维度K歌打分等能力。其中K歌打分包含音准、气息、节奏、情感、歌词处理等多维度,超越行业内绝大部分打分机制
直播场景的整个链路可以大概分成3部分:推流端、传输网络、拉流端。其中推流端和拉流端可以理解为内容的生产端和内容的消费端