You need to enable JavaScript to run this app.
导航
产品概述
最近更新时间:2024.11.22 10:35:54首次发布时间:2022.04.28 14:48:09

产品简介

语音识别(Automatic Speech Recognition,ASR)采用业内领先的端到端算法模型,准确地将语音内容转写成文字。产品支持时间戳,区分讲话人,数字格式智能转换,智能标点等功能。适用于录音质检、会议总结、音频内容分析、课堂内容分析等场景。

一句话识别

支持将短语音(≤60秒)实时识别成文字,达到“边说话边出文字”的效果。适用于音频小于60秒,需要实时出结果的场景,如语音消息转写、语音搜索、语音弹幕、语音评论、智能语音交互等。

流式语音识别

支持将长音频实时识别成文字,达到“边说话边出文字”的效果,适用于实时语音识别的场景,如实时会议字幕、直播字幕、智能外呼等。

录音文件识别标准版

支持将音频文件(≤5小时)转写成文本数据,内置自动标点、语义顺滑、数字规整、智能分句、说话人识别等功能,可根据需要任意搭配。适用于非实时的语音识别场景,如会议记录总结、智能外呼质检、课后教辅和学情分析等。

录音文件识别极速版

支持将音频文件(≤5小时)极速转写,半实时返回识别结果;内置自动标点、语义顺滑、数字规整、智能分句、说话人识别等功能,可根据需要任意搭配。适用于准实时外呼质检、及时会议记录、有声内容转写等场景。

功能特性

一句话识别

流式语音识别

录音文件识别标准版

录音文件识别极速版

支持场景

办公、教育、通用

办公、客服、通用

办公、客服、娱乐、通用

办公、客服、娱乐、通用

基础能力

语音识别、时间戳

语音识别、智能分句、时间戳

语音识别、智能分句、时间戳

语音识别、智能分句、时间戳

可选能力

自动标点

自动标点、数字规整、语义顺滑、音量、语速

自动标点、数字规整、语义顺滑、说话人识别、双通道分离、音量、语速、情感(客服)

自动标点、数字规整、语义顺滑、说话人识别、双通道分离、音量、语速、情感(客服)

扩展能力

支持通过自学习平台添加中英文热词

支持通过自学习平台添加中英文热词

支持通过自学习平台添加中英文热词

支持通过自学习平台添加中英文热词

返回时效

实时,即边说话边出文字

实时,即边说话边出文字

承诺 3 小时内返回识别文本;
通常非忙时1小时音频可在12分钟返回识别结果,其他时长等比估算

通常1小时音频可在3分钟内返回识别结果,其他时长等比估算;
短音频受系统调度影响,或忙时任务排队情况下,返回时长可能上浮

并发限制

正式版默认10并发
支持购买并发扩容

正式版默认10并发
支持购买并发扩容

正式版默认最大支持 50QPS,半小时内提交的音频时长不超过 500小时

正式版默认最大支持 50QPS,半小时内提交的音频时长不超过 500小时

输入音频格式

支持PCM、WAV、MP3、OPUS格式;
单声道,采样率无要求;
音频时长<60秒

支持PCM、WAV、MP3、OPUS格式;
单声道,采样率无要求;
不限时长

支持WAV、MP3、MP4、m4a格式;
单声道,采样率无要求;
音频时长<5小时,且文件大小<512M

支持WAV、MP3、MP4、m4a格式;
单声道,采样率无要求;
音频时长<5小时,且文件大小<512M

接入方式

SDK / Websocket API

SDK / Websocket API

HTTP

HTTP

说明:

  • 语义顺滑:该能力目前支持中文、英文识别的语义顺滑。
  • 标点:语音识别中的自动标点包含中文全角(逗号、句号、问号、叹号、顿号)和英文半角(逗号、句号、问号、叹号)标点。
  • QPS (query per second) 是一秒内查询服务接口的次数。
  • 并发:并发数是服务端在一个时刻同时处理单个用户(appid)的请求个数。语音请求一般持续时间比较长,比如用户发起了一条 ASR 请求,还未结束前,又发起了另一条请求,则并发数是 2。
  • 录音文件识别标准版&极速版如有一次性识别大规模数据需求(半小时内上传超过500小时时长的录音),请联系销售专家立即咨询

场景&语种支持

场景选择

场景说明

一句话识别

流式语音识别

录音文件识别标准版&极速版

办公(16K)

适用于企业办公、政府会议/访谈内容转写

中文、英文、日语、韩语、法语、
西班牙语、葡萄牙语、俄语、印尼语、马来语

中文、英文、日语、韩语、法语、
西班牙语、葡萄牙语、俄语、印尼语、马来语

中文、英文、日语、韩语、法语、
西班牙语、葡萄牙语、俄语、印尼语、马来语

客服(8K)

适用于智能客服、质检内容转写,建议8K音频

中文

中文

娱乐(16K)

适用于长短视频、小说综艺、直播带货内容转写

中文、英文、日语、韩语、法语、
西班牙语、葡萄牙语、俄语、印尼语、马来语

通用(16K)

适用于输入法场景或以上场景均不属于时

中文、粤语、川渝方言

中文、粤语、川渝方言

中文、粤语、川渝方言、
吴语(上海话)

教育(16K)

适用于中英文语言教育内容转写

中文、英文

其中方言: 中文默认支持识别八大官话,包括 东北官话、北京官话、冀鲁官话、胶辽官话、中原官话、兰银官话、江淮官话、西南官话。

产品体验

请点击链接进入 语音识别 能力体验