We're sorry but react app doesn't work properly without JavaScript enabled. Please enable it to continue.
最新活动
产品
解决方案
定价
生态与合作
支持与服务
开发者
了解我们
文档
备案
控制台
登录
立即注册
豆包语音识别大模型
依托新一代大模型能力,豆包语音识别大模型拥有更加灵敏的耳朵+更加聪明的大脑。相较于传统语音识别技术,语音识别大模型准确率更高、复杂场景识别效果更好、交互体验更类人。
依托新一代大模型能力,豆包语音识别大模型拥有更加灵敏的耳朵+更加聪明的大脑。相较于传统语音识别技术,语音识别大模型准确率更高、复杂场景识别效果更好、交互体验更类人。
立即咨询
立即使用
产品文档
豆包语音合成大模型
更具情感力的听觉体验
热门产品
豆包声音复刻大模型
5s定制你的专属音色
热门产品
语音技术
语音识别、语音合成等技术
音视频字幕生成
视频、会议、网课智能字幕服务
豆包·语音大模型创业者加速计划
为 AI 语音初创企业提供包括语音合成、声音复刻和语音识别大模型资源
3个月免费
资源支持,以产品代金券的方式发放至企业账户
查看活动详情 >>
查看活动详情 >>
3种大模型能力
免费支持,AI语音新产品有长期明确的发展和迭代计划
查看活动详情 >>
查看活动详情 >>
1000家创业企业扶持
利用AI语音进行新产品研发的1000家初创公司
查看活动详情 >>
查看活动详情 >>
3个月免费
资源支持,以产品代金券的方式发放至企业账户
查看活动详情 >>
查看活动详情 >>
3种大模型能力
免费支持,AI语音新产品有长期明确的发展和迭代计划
查看活动详情 >>
查看活动详情 >>
1000家创业企业扶持
利用AI语音进行新产品研发的1000家初创公司
查看活动详情 >>
查看活动详情 >>
能力体验
产品优势
产品功能
应用场景
客户案例
使用指南
产品优势
更高
准确率
识别准确率
专有名词识别能力强
特定领域专项优化
更多
语种支持
效果提升
中英文混合识别支持
口音错误率显著降低
更真
交互体验
贴合语境
上下文理解能力,让”耳朵“思考
识别效果更贴合语境
更难
复杂场景
效果提升
弱化背景音影响
弱化噪声影响
更高
准确率
识别准确率
专有名词识别能力强
特定领域专项优化
更多
语种支持
效果提升
中英文混合识别支持
口音错误率显著降低
更真
交互体验
贴合语境
上下文理解能力,让”耳朵“思考
识别效果更贴合语境
更难
复杂场景
效果提升
弱化背景音影响
弱化噪声影响
产品类型
大模型流式语音识别
依托大模型能力,准确率更高。支持将音频流实时识别成文字,达到“边说话边出文字”的效果。
大模型录音文件识别
依托大模型能力,准确率更高。支持将音频文件转成文本,适用于会议记录、质检等场景。
一句话语音识别
支持将短语音(≤60秒)实时识别成文字,达到“边说话边出文字”的效果。适用于音频小于60秒,需要实时出结果的场景。
流式语音识别
支持将音频流实时识别成文字,达到“边说话边出文字”的效果。
录音文件语音识别
支持将5小时内音频文件转成文本,适用于会议记录、外呼质检等场景。
录音文件识别极速版
支持将5小时内音频文件极速转写,半实时返回识别结果,适用于准实时外呼质检、及时会议记录、有声内容转写。
大模型流式语音识别
依托大模型能力,准确率更高。支持将音频流实时识别成文字,达到“边说话边出文字”的效果。
大模型录音文件识别
依托大模型能力,准确率更高。支持将音频文件转成文本,适用于会议记录、质检等场景。
一句话语音识别
支持将短语音(≤60秒)实时识别成文字,达到“边说话边出文字”的效果。适用于音频小于60秒,需要实时出结果的场景。
流式语音识别
支持将音频流实时识别成文字,达到“边说话边出文字”的效果。
录音文件语音识别
支持将5小时内音频文件转成文本,适用于会议记录、外呼质检等场景。
录音文件识别极速版
支持将5小时内音频文件极速转写,半实时返回识别结果,适用于准实时外呼质检、及时会议记录、有声内容转写。
展开查看更多
应用场景
会议访谈转写
将会议、访谈音频实时或异步识别为文字,自动切分有语音部分识别,同时自动分段。
立即咨询
游戏语音输入
针对游戏语音输入、手机输入法场景,支持“边说边出文字”的效果,提升沟通效率。
立即咨询
课堂内容分析
将课堂录音文件进行识别,通过文字还原课堂场景,分析教学内容,提升教学质量。
音视频字幕
支持自动将音/视频中的语音、歌词识别转换为文本,一键生成对应的字幕内容。
语音交互
人机交互提供语音输入渠道,实时将语音转成文字作为输入,和设备/硬件等快速交互。
立即咨询
内容审核质检
将录音识别为文字,通过质检规则分析文本,及时发现违规内容或发掘潜在商机。
立即咨询
会议访谈转写
将会议、访谈音频实时或异步识别为文字,自动切分有语音部分识别,同时自动分段。
立即咨询
游戏语音输入
针对游戏语音输入、手机输入法场景,支持“边说边出文字”的效果,提升沟通效率。
立即咨询
课堂内容分析
将课堂录音文件进行识别,通过文字还原课堂场景,分析教学内容,提升教学质量。
语音交互
人机交互提供语音输入渠道,实时将语音转成文字作为输入,和设备/硬件等快速交互。
立即咨询
内容审核质检
将录音识别为文字,通过质检规则分析文本,及时发现违规内容或发掘潜在商机。
立即咨询
会议访谈转写
将会议、访谈音频实时或异步识别为文字,自动切分有语音部分识别,同时自动分段。
立即咨询
游戏语音输入
针对游戏语音输入、手机输入法场景,支持“边说边出文字”的效果,提升沟通效率。
立即咨询
课堂内容分析
将课堂录音文件进行识别,通过文字还原课堂场景,分析教学内容,提升教学质量。
音视频字幕
支持自动将音/视频中的语音、歌词识别转换为文本,一键生成对应的字幕内容。
客户案例
豆包是一款AI 对话产品。你可以用豆包进行各种对话问答。同时,豆包还提供了实时通话功能,可以实现无障碍的实时交流。
立即咨询
剪映是豆包语音大模型技术深度合作伙伴,持续为专业及普通创作者提供智能字幕等语音服务,打造多元创新、便捷高效的AIGC工具。
立即咨询
豆包语音大模型为抖音持续提供行业领先算法能力及语音服务,基于语音识别的智能字幕服务,完美适配视频剪辑等场景。同时支持抖音语音搜索及输入等功能,让用户使用更便捷。
立即咨询
豆包
剪映
抖音
豆包是一款AI 对话产品。你可以用豆包进行各种对话问答。同时,豆包还提供了实时通话功能,可以实现无障碍的实时交流。
立即咨询
剪映是豆包语音大模型技术深度合作伙伴,持续为专业及普通创作者提供智能字幕等语音服务,打造多元创新、便捷高效的AIGC工具。
立即咨询
豆包语音大模型为抖音持续提供行业领先算法能力及语音服务,基于语音识别的智能字幕服务,完美适配视频剪辑等场景。同时支持抖音语音搜索及输入等功能,让用户使用更便捷。
立即咨询
使用指南
计费使用指南
灵活变更计费项规格,按需调整资源计费方式。
试用额度
资源包预付费
调用字符后付费
到期后资源状态
快速入门
什么是语音识别大模型
什么是语音识别
语音识别大模型指南
大模型流式语音识别API
大模型录音文件识别API
控制台
语音识别指南
语音识别服务协议
语音识别常见问题
语音技术其他产品
语音合成大模型
声音复刻大模型
一键启动火山引擎之旅
联系我们