火山引擎语音团队基于大模型语音识别能力全新升级,依托业界领先的自研语音识别技术和海量的语音行业大数据优势,语音识别大模型拥有更加灵敏的耳朵+更加聪明的大脑,识别准确率进一步提升。
双向流式模式: 支持将长音频实时识别成文字,达到“边说话边出文字”的效果,适用于实时语音识别的场景,如实时会议字幕、直播字幕、智能外呼等。
流式输入模式: 支持将音频以流式方式送入,语音识别引擎处理完后返回句级的识别结果,适用于智能体对话、IM语音消息转写、语音输入法等场景。
支持将音频文件(≤4小时)转写成文本数据,内置自动标点、语义顺滑、数字规整、智能分句等功能,可根据需要任意搭配。适用于非实时的语音识别场景,如会议记录总结、智能外呼质检、课后教辅和学情分析等。
目前该能力只对企业客户开放,如需测试或接入须先进行企业认证。
超高的准确率:相比传统模型识别错误率降低30%,在音乐,科技,教育,医疗等垂直领域识别错误率降低50%以上。
复杂场景识别效果提升:支持多语种多方言语音识别,口音错误率降低50%,噪声和背景人声下降30%-50%
更类真人的交互体验:大模型能根据上下文,用户输入,背景信息输入等,让“耳朵”能思考,给出更贴合语境的识别效果。
大模型流式语音识别 | 大模型录音文件识别 | ||
---|---|---|---|
适用场景 | 豆包:打电话模式,实时语音通话;iM消息(输入法) | 剪映:字幕创作 | |
基础能力 | 语音识别 | ✅ | ✅ |
智能分句 | ✅ | ✅ | |
字/词时间戳 | ✅ | ✅ | |
可选能力 | 自动标点 | ✅ | ✅ |
语义顺滑 | ✅ | ✅ | |
数字规整ITN | ✅ | ✅ | |
热词纠错 | 平台级别 | 支持通过自学习平台添加中英文热词 | 支持通过自学习平台添加中英文热词 |
请求级别 | ✅ | ✅ | |
返回时效 | 双向流式模式:实时,即边说话边出文字 | 承诺 3 小时内返回识别文本 | |
流式输入模式:流式输入,分句返回 | |||
并发限制 | 正式版默认10并发 支持购买并发扩容 | 正式版默认最大支持 20QPS,半小时内提交的音频时长不超过 500小时 | |
输入音频格式 | 支持PCM、OPUS格式; | 支持WAV、MP3、MP4、m4a格式; | |
采样率 | 单声道,采样率 8000/16000 | 单声道,采样率无要求 音频时长<4小时,且文件大小<512M | |
接入方式 | Websocket API | HTTP | |
支持语种 | 中英文 | 中英文、上海话、闽南语,四川、陕西、粤语 |
说明:
语义顺滑:该能力目前支持中文、英文识别的语义顺滑。
标点:语音识别中的自动标点包含中文全角(逗号、句号、问号、叹号、顿号)和英文半角(逗号、句号、问号、叹号)标点。
QPS (query per second) 是一秒内查询服务接口的次数。
并发:并发数是服务端在一个时刻同时处理单个用户(appid)的请求个数。语音请求一般持续时间比较长,比如用户发起了一条 ASR 请求,还未结束前,又发起了另一条请求,则并发数是 2。
应用场景 | 场景描述及价值 |
---|---|
语音交互 | 为人机交互提供语音输入渠道,通过实时将语音转成文字作为输入,达到和设备/硬件/应用快速&便捷交互的目的 |
内容审核质检 | 将录音识别为文字,通过质检规则对文本进行分析,及时发现违规内容并干预处理;或对内容进行监控分析,发掘潜在商机 |
会议访谈转写 | 将会议、访谈音频实时或异步识别为文字,自动切分有语音部分识别,降本增效;同时自动分段,有效提升会议内容记录效率 |
游戏语音输入 | 针对游戏语音输入、手机输入法场景,支持用户“边说边出文字”的效果,极大降低用户文字沟通费力度、提升沟通效率 |
课堂内容分析 | 将课堂录音文件进行识别,通过文字还原课堂场景,分析教学内容,提升教学质量 |
音视频字幕 | 支持自动将音/视频中的语音识别转换为文本,一键生成与音视频对应的字幕内容。适用于视频剪辑、视频观看、视频会议等多个场景; |
请点击链接进入 语音识别大模型 能力体验