产品概述--语音技术-火山引擎

文档中心

导航

产品概述

最近更新时间：2024.11.22 10:35:54首次发布时间：2022.04.28 14:48:09

产品简介

语音识别（Automatic Speech Recognition，ASR）采用业内领先的端到端算法模型，准确地将语音内容转写成文字。产品支持时间戳，区分讲话人，数字格式智能转换，智能标点等功能。适用于录音质检、会议总结、音频内容分析、课堂内容分析等场景。

一句话识别

支持将短语音（≤60秒）实时识别成文字，达到“边说话边出文字”的效果。适用于音频小于60秒，需要实时出结果的场景，如语音消息转写、语音搜索、语音弹幕、语音评论、智能语音交互等。

流式语音识别

支持将长音频实时识别成文字，达到“边说话边出文字”的效果，适用于实时语音识别的场景，如实时会议字幕、直播字幕、智能外呼等。

录音文件识别标准版

支持将音频文件（≤5小时）转写成文本数据，内置自动标点、语义顺滑、数字规整、智能分句、说话人识别等功能，可根据需要任意搭配。适用于非实时的语音识别场景，如会议记录总结、智能外呼质检、课后教辅和学情分析等。

录音文件识别极速版

支持将音频文件（≤5小时）极速转写，半实时返回识别结果；内置自动标点、语义顺滑、数字规整、智能分句、说话人识别等功能，可根据需要任意搭配。适用于准实时外呼质检、及时会议记录、有声内容转写等场景。

功能特性

	一句话识别	流式语音识别	录音文件识别标准版	录音文件识别极速版
支持场景	办公、教育、通用	办公、客服、通用	办公、客服、娱乐、通用	办公、客服、娱乐、通用
基础能力	语音识别、时间戳	语音识别、智能分句、时间戳	语音识别、智能分句、时间戳	语音识别、智能分句、时间戳
可选能力	自动标点	自动标点、数字规整、语义顺滑、音量、语速	自动标点、数字规整、语义顺滑、说话人识别、双通道分离、音量、语速、情感（客服）	自动标点、数字规整、语义顺滑、说话人识别、双通道分离、音量、语速、情感（客服）
扩展能力	支持通过自学习平台添加中英文热词	支持通过自学习平台添加中英文热词	支持通过自学习平台添加中英文热词	支持通过自学习平台添加中英文热词
返回时效	实时，即边说话边出文字	实时，即边说话边出文字	承诺 3 小时内返回识别文本；通常非忙时1小时音频可在12分钟返回识别结果，其他时长等比估算	通常1小时音频可在3分钟内返回识别结果，其他时长等比估算；短音频受系统调度影响，或忙时任务排队情况下，返回时长可能上浮
并发限制	正式版默认10并发支持购买并发扩容	正式版默认10并发支持购买并发扩容	正式版默认最大支持 50QPS，半小时内提交的音频时长不超过 500小时	正式版默认最大支持 50QPS，半小时内提交的音频时长不超过 500小时
输入音频格式	支持PCM、WAV、MP3、OPUS格式；单声道，采样率无要求；音频时长<60秒	支持PCM、WAV、MP3、OPUS格式；单声道，采样率无要求；不限时长	支持WAV、MP3、MP4、m4a格式；单声道，采样率无要求；音频时长<5小时，且文件大小<512M	支持WAV、MP3、MP4、m4a格式；单声道，采样率无要求；音频时长<5小时，且文件大小<512M
接入方式	SDK / Websocket API	SDK / Websocket API	HTTP	HTTP

说明：

语义顺滑：该能力目前支持中文、英文识别的语义顺滑。
标点：语音识别中的自动标点包含中文全角（逗号、句号、问号、叹号、顿号）和英文半角（逗号、句号、问号、叹号）标点。
QPS (query per second) 是一秒内查询服务接口的次数。
并发：并发数是服务端在一个时刻同时处理单个用户(appid)的请求个数。语音请求一般持续时间比较长，比如用户发起了一条 ASR 请求，还未结束前，又发起了另一条请求，则并发数是 2。
录音文件识别标准版&极速版如有一次性识别大规模数据需求（半小时内上传超过500小时时长的录音），请联系销售专家立即咨询。

场景&语种支持

场景选择	场景说明	一句话识别	流式语音识别	录音文件识别标准版&极速版
办公（16K）	适用于企业办公、政府会议/访谈内容转写	中文、英文、日语、韩语、法语、西班牙语、葡萄牙语、俄语、印尼语、马来语	中文、英文、日语、韩语、法语、西班牙语、葡萄牙语、俄语、印尼语、马来语	中文、英文、日语、韩语、法语、西班牙语、葡萄牙语、俄语、印尼语、马来语
客服（8K）	适用于智能客服、质检内容转写，建议8K音频	无	中文	中文
娱乐（16K）	适用于长短视频、小说综艺、直播带货内容转写	无	无	中文、英文、日语、韩语、法语、西班牙语、葡萄牙语、俄语、印尼语、马来语
通用（16K）	适用于输入法场景或以上场景均不属于时	中文、粤语、川渝方言	中文、粤语、川渝方言	中文、粤语、川渝方言、吴语（上海话）
教育（16K）	适用于中英文语言教育内容转写	中文、英文	无	无

其中方言： 中文默认支持识别八大官话，包括东北官话、北京官话、冀鲁官话、胶辽官话、中原官话、兰银官话、江淮官话、西南官话。

产品体验

请点击链接进入语音识别能力体验