基于语音识别技术,能够自动将音/视频中的语音、歌词转换为字幕文本,适用于辅助视频字幕创作和外挂字幕自动生成。产品支持多个语种的识别、打轴,是完美适配视频创作和视频观看场景的智能字幕解决方案。
支持自动将音/视频中的语音、歌词识别转换为文本,并一键生成与音视频对应的字幕内容展示,简单高效。适用于视频剪辑、视频观看、视频会议等多个场景。
支持视频创作者同时上传音视频和对应的文本内容,无需识别转文字,直接给字幕配时间轴,使其随原声滚动,便宜高效。自动字幕打轴支持说话打轴和歌词打轴两种模式,可自动输出文本分句和每个词、分句的时间戳结果,适用于已有文本场景下的视频创作场景。
音视频字幕生成 | 自动字幕打轴 | |
---|---|---|
支持语种 | 中英及方言混合识别(含粤语、上海话、闽南语、西南官话、中原官话);维语识别 英语、日语、韩语、俄语、法语、西语 | 中英混合、纯中文、纯英文 |
识别模式 | 中、英、粤语支持说话、唱歌识别;维、日、韩、西、俄、法语支持说话识别 | 说话文本打轴,歌词打轴 |
基础能力 | 语音识别、智能分句、时间戳 | 智能分句、时间戳 |
可选能力 | 数字规整、自动标点、水词标注、说话人识别 | 支持多种标点模式 具体标点模式详见API接口文档 |
扩展能力 | 支持通过自学习平台添加中英文热词 | 无需 |
输入音频 | 支持WAV、M4A、MP3、MP4、MOV、OGG格式; 音频或视频文件不超过200M | 支持WAV、M4A、MP3、MP4、MOV、OGG格式; 音频或视频文件不超过200M |
接入方式 | HTTP | HTTP |
说明: