产品概述--语音技术-火山引擎

文档中心

导航

产品概述

最近更新时间：2024.05.07 14:35:40首次发布时间：2022.04.28 14:48:21

产品介绍

基于语音识别技术，能够自动将音/视频中的语音、歌词转换为字幕文本，适用于辅助视频字幕创作和外挂字幕自动生成。产品支持多个语种的识别、打轴，是完美适配视频创作和视频观看场景的智能字幕解决方案。

支持自动将音/视频中的语音、歌词识别转换为文本，并一键生成与音视频对应的字幕内容展示，简单高效。适用于视频剪辑、视频观看、视频会议等多个场景。

支持视频创作者同时上传音视频和对应的文本内容，无需识别转文字，直接给字幕配时间轴，使其随原声滚动，便宜高效。自动字幕打轴支持说话打轴和歌词打轴两种模式，可自动输出文本分句和每个词、分句的时间戳结果，适用于已有文本场景下的视频创作场景。

	音视频字幕生成	自动字幕打轴
支持语种	中英及方言混合识别（含粤语、上海话、闽南语、西南官话、中原官话）；维语识别英语、日语、韩语、俄语、法语、西语	中英混合、纯中文、纯英文
识别模式	中、英、粤语支持说话、唱歌识别；维、日、韩、西、俄、法语支持说话识别	说话文本打轴，歌词打轴
基础能力	语音识别、智能分句、时间戳	智能分句、时间戳
可选能力	数字规整、自动标点、水词标注、说话人识别	支持多种标点模式具体标点模式详见API接口文档
扩展能力	支持通过自学习平台添加中英文热词	无需
输入音频	支持WAV、M4A、MP3、MP4、MOV、OGG格式；音频或视频文件不超过200M	支持WAV、M4A、MP3、MP4、MOV、OGG格式；音频或视频文件不超过200M
接入方式	HTTP	HTTP

说明：