You need to enable JavaScript to run this app.
导航
产品简介
最近更新时间:2024.08.16 13:51:20首次发布时间:2024.08.01 15:55:00

产品说明

火山引擎语音团队基于大模型语音识别能力全新升级,依托业界领先的自研语音识别技术和海量的语音行业大数据优势,语音识别大模型拥有更加灵敏的耳朵+更加聪明的大脑,识别准确率进一步提升。

大模型流式语音识别

双向流式模式: 支持将长音频实时识别成文字,达到“边说话边出文字”的效果,适用于实时语音识别的场景,如实时会议字幕、直播字幕、智能外呼等。

流式输入模式: 支持将音频以流式方式送入,语音识别引擎处理完后返回句级的识别结果,适用于智能体对话、IM语音消息转写、语音输入法等场景。

大模型录音文件识别

支持将音频文件(≤4小时)转写成文本数据,内置自动标点、语义顺滑、数字规整、智能分句等功能,可根据需要任意搭配。适用于非实时的语音识别场景,如会议记录总结、智能外呼质检、课后教辅和学情分析等。

说明

目前该能力只对企业客户开放,如需测试或接入须先进行企业认证。

产品优势

  • 超高的准确率:相比传统模型识别错误率降低30%,在音乐,科技,教育,医疗等垂直领域识别错误率降低50%以上。
  • 复杂场景识别效果提升:支持多语种多方言语音识别,口音错误率降低50%,噪声和背景人声下降30%-50%
  • 更类真人的交互体验:大模型能根据上下文,用户输入,背景信息输入等,让“耳朵”能思考,给出更贴合语境的识别效果。

功能特性

大模型流式语音识别大模型录音文件识别
适用场景豆包:打电话模式,实时语音通话;iM消息(输入法)剪映:字幕创作
基础能力语音识别
智能分句
字/词时间戳
可选能力自动标点
语义顺滑
数字规整ITN
热词纠错平台级别支持通过自学习平台添加中英文热词支持通过自学习平台添加中英文热词
请求级别

返回时效

双向流式模式:实时,即边说话边出文字
流式输入模式:流式输入,分句返回

承诺 3 小时内返回识别文本

并发限制

正式版默认10并发 支持购买并发扩容

正式版默认最大支持 50QPS,半小时内提交的音频时长不超过 500小时

输入音频格式支持PCM、OPUS格式;支持WAV、MP3、MP4、m4a格式;
采样率单声道,采样率 8000/16000单声道,采样率无要求 音频时长<4小时,且文件大小<512M
接入方式Websocket APIHTTP
支持语种中英文中英文、上海话、闽南语,四川、陕西、粤语

说明:

  • 语义顺滑:该能力目前支持中文、英文识别的语义顺滑。
  • 标点:语音识别中的自动标点包含中文全角(逗号、句号、问号、叹号、顿号)和英文半角(逗号、句号、问号、叹号)标点。
  • QPS (query per second) 是一秒内查询服务接口的次数。
  • 并发:并发数是服务端在一个时刻同时处理单个用户(appid)的请求个数。语音请求一般持续时间比较长,比如用户发起了一条 ASR 请求,还未结束前,又发起了另一条请求,则并发数是 2。

应用场景

应用场景

场景描述及价值

语音交互

为人机交互提供语音输入渠道,通过实时将语音转成文字作为输入,达到和设备/硬件/应用快速&便捷交互的目的

内容审核质检

将录音识别为文字,通过质检规则对文本进行分析,及时发现违规内容并干预处理;或对内容进行监控分析,发掘潜在商机

会议访谈转写

将会议、访谈音频实时或异步识别为文字,自动切分有语音部分识别,降本增效;同时自动分段,有效提升会议内容记录效率

游戏语音输入

针对游戏语音输入、手机输入法场景,支持用户“边说边出文字”的效果,极大降低用户文字沟通费力度、提升沟通效率

课堂内容分析

将课堂录音文件进行识别,通过文字还原课堂场景,分析教学内容,提升教学质量

音视频字幕

支持自动将音/视频中的语音识别转换为文本,一键生成与音视频对应的字幕内容。适用于视频剪辑、视频观看、视频会议等多个场景;