产品简介--语音技术-火山引擎

文档中心

导航

产品简介

最近更新时间：2025.02.07 18:43:43首次发布时间：2024.10.15 10:59:11

产品说明

火山引擎语音团队基于大模型语音识别能力全新升级,依托业界领先的自研语音识别技术和海量的语音行业大数据优势，语音识别大模型拥有更加灵敏的耳朵+更加聪明的大脑，识别准确率进一步提升。

大模型流式语音识别

双向流式模式： 支持将长音频实时识别成文字，达到“边说话边出文字”的效果，适用于实时语音识别的场景，如实时会议字幕、直播字幕、智能外呼等。
流式输入模式： 支持将音频以流式方式送入，语音识别引擎处理完后返回句级的识别结果，适用于智能体对话、IM语音消息转写、语音输入法等场景。

大模型录音文件识别

支持将音频文件（≤4小时）转写成文本数据，内置自动标点、语义顺滑、数字规整、智能分句等功能，可根据需要任意搭配。适用于非实时的语音识别场景，如会议记录总结、智能外呼质检、课后教辅和学情分析等。
目前该能力只对企业客户开放，如需测试或接入须先进行企业认证。

产品优势

超高的准确率：相比传统模型识别错误率降低30%，在音乐，科技，教育，医疗等垂直领域识别错误率降低50%以上。
复杂场景识别效果提升：支持多语种多方言语音识别，口音错误率降低60%，噪声和背景人声下降30%-50%。
更类真人的交互体验：大模型能根据上下文、用户输入、背景信息输入等，让“耳朵”能思考，给出更贴合语境的识别效果。

功能特性

/	大模型流式语音识别	大模型录音文件识别
适用场景	双向流式模式：豆包打电话模式，实时语音通话；流式输入模式：iM消息（输入法）	剪映：字幕创作飞书：会议纪要
基础能力	语音识别、智能分句、字/词时间戳	语音识别、智能分句、字/词时间戳
可选能力	自动标点、语义顺滑、数字规整ITN	自动标点、语义顺滑、说话人识别、数字规整ITN
热词纠错	平台级别：支持通过自学习平台添加中英文热词；请求级别：✅	平台级别：支持通过自学习平台添加中英文热词；请求级别：✅
返回时效	双向流式模式：实时，即边说话边出文字流式输入模式：流式输入，分句返回	承诺 3 小时内返回识别文本
并发限制	正式版默认10并发支持购买并发扩容	正式版默认最大支持 20QPS，半小时内提交的音频时长不超过 500小时
输入音频格式	支持PCM、OPUS格式	支持WAV、MP3、MP4、m4a格式
采样率	单声道，采样率 16000	单声道/双声道，采样率无要求音频时长<4小时，且文件大小<512M
接入方式	Websocket API / 在线SDK	HTTP
支持语种	双向流式模式：中英文；流式输入模式：中英文、上海话、闽南语，四川、陕西、粤语	中英文、上海话、闽南语，四川、陕西、粤语

说明：
语义顺滑：该能力目前支持中文、英文识别的语义顺滑。
标点：语音识别中的自动标点包含中文全角（逗号、句号、问号、叹号、顿号）和英文半角（逗号、句号、问号、叹号）标点。
QPS (query per second) 是一秒内查询服务接口的次数。
并发：并发数是服务端在一个时刻同时处理单个用户(appid)的请求个数。语音请求一般持续时间比较长，比如用户发起了一条 ASR 请求，还未结束前，又发起了另一条请求，则并发数是 2。

应用场景

应用场景	场景描述及价值
语音交互	为人机交互提供语音输入渠道，通过实时将语音转成文字作为输入，达到和设备/硬件/应用快速&便捷交互的目的。
内容审核质检	将录音识别为文字，通过质检规则对文本进行分析，及时发现违规内容并干预处理；或对内容进行监控分析，发掘潜在商机。
会议访谈转写	将会议、访谈音频实时或异步识别为文字，自动切分有语音部分识别，降本增效；同时自动分段，有效提升会议内容记录效率。
游戏语音输入	针对游戏语音输入、手机输入法场景，支持用户“边说边出文字”的效果，极大降低用户文字沟通费力度、提升沟通效率。
课堂内容分析	将课堂录音文件进行识别，通过文字还原课堂场景，分析教学内容，提升教学质量。
音视频字幕	支持自动将音/视频中的语音识别转换为文本，一键生成与音视频对应的字幕内容。适用于视频剪辑、视频观看、视频会议等多个场景。

产品体验

请点击链接进入语音识别大模型能力体验