豆包语音识别大模型

3种大模型能力

免费支持，AI语音新产品有长期明确的发展和迭代计划

1000家创业企业扶持

利用AI语音进行新产品研发的1000家初创公司

3个月免费

资源支持，以产品代金券的方式发放至企业账户

3种大模型能力

免费支持，AI语音新产品有长期明确的发展和迭代计划

1000家创业企业扶持

利用AI语音进行新产品研发的1000家初创公司

优惠套餐

能力体验

产品优势

产品功能

应用场景

客户案例

使用指南

优惠套餐

限时特惠，一键获取抖音、剪映、飞书同款服务

HOT

大模型录音文件识别

支持将音频文件（≤4小时）转写成文本，内置语义顺滑、智能分句等功能，适用于会议记录总、智能外呼质检等场景。

支持长音频转写

具备自动标点、数字规整等功能

满足各类非实时语音识别场景

新客专享

限购5个

￥52.8/个

66元/个

支持长音频转写

具备自动标点、数字规整等功能

满足各类非实时语音识别场景

新客专享

限购5个

￥1600.00/个

2000元/个

HOT

大模型流式语音识别

将长音频实时识别成文字，实现“边说话边出文字”的效果

超高准确率

复杂场景识别效果突出

交互体验更类真人

新客专享

限购5个

￥105.6/个

132元/个

超高准确率

复杂场景识别效果突出

交互体验更类真人

新客专享

限购5个

￥3200.00/个

4000元/个

一句话识别

短语音实时识别成文本

可识别中/英/日/法/俄/西语等10+种语种

具备时间戳、自动标点能力

适用语音消息转写、语音搜索等场景

新人专享

限购5个

￥1200.00/个

1500元/个

可识别中/英/日/法/俄/西语等10+种语种

具备时间戳、自动标点能力

适用语音消息转写、语音搜索等场景

新人专享

限购5个

￥1760.00/个

2200元/个

流式语音识别

将短语音（≤60秒）实时识别成文字，达到“边说话边出文字”的效果。适用于语音消息转写、语音搜索、语音弹幕、语音评论、智能语音交互等。

可识别中/英/日/法/俄/西语等10+种语种

具备智能分句、时间戳能力

适用实时会议字幕、直播字幕、智能外呼

新客专享

限购5个

￥1200.00/个

1500元/个

可识别中/英/日/法/俄/西语等10+种语种

具备智能分句、时间戳能力

适用实时会议字幕、直播字幕、智能外呼

新客专享

限购5个

￥1440.00/个

1800元/个

产品优势

更高

准确率

识别准确率

专有名词识别能力强

特定领域专项优化

语种支持

效果提升

中英文混合识别支持

口音错误率显著降低

更真

交互体验

贴合语境

上下文理解能力，让”耳朵“思考

识别效果更贴合语境

更难

复杂场景

效果提升

弱化背景音影响

弱化噪声影响

更高

准确率

识别准确率

专有名词识别能力强

特定领域专项优化

语种支持

效果提升

中英文混合识别支持

口音错误率显著降低

更真

交互体验

贴合语境

上下文理解能力，让”耳朵“思考

识别效果更贴合语境

更难

复杂场景

效果提升

弱化背景音影响

弱化噪声影响

产品类型

大模型流式语音识别

依托大模型能力，准确率更高。支持将音频流实时识别成文字，达到“边说话边出文字”的效果。

大模型录音文件识别

依托大模型能力，准确率更高。支持将音频文件转成文本，适用于会议记录、质检等场景。

一句话语音识别

支持将短语音（≤60秒）实时识别成文字，达到“边说话边出文字”的效果。适用于音频小于60秒，需要实时出结果的场景。

流式语音识别

支持将音频流实时识别成文字，达到“边说话边出文字”的效果。

录音文件语音识别

支持将5小时内音频文件转成文本，适用于会议记录、外呼质检等场景。

录音文件识别极速版

支持将5小时内音频文件极速转写，半实时返回识别结果，适用于准实时外呼质检、及时会议记录、有声内容转写。

大模型流式语音识别

依托大模型能力，准确率更高。支持将音频流实时识别成文字，达到“边说话边出文字”的效果。

大模型录音文件识别

依托大模型能力，准确率更高。支持将音频文件转成文本，适用于会议记录、质检等场景。

一句话语音识别

支持将短语音（≤60秒）实时识别成文字，达到“边说话边出文字”的效果。适用于音频小于60秒，需要实时出结果的场景。

流式语音识别

支持将音频流实时识别成文字，达到“边说话边出文字”的效果。

录音文件语音识别

支持将5小时内音频文件转成文本，适用于会议记录、外呼质检等场景。

录音文件识别极速版

支持将5小时内音频文件极速转写，半实时返回识别结果，适用于准实时外呼质检、及时会议记录、有声内容转写。

展开查看更多

应用场景

会议访谈转写

将会议、访谈音频实时或异步识别为文字，自动切分有语音部分识别，同时自动分段。

游戏语音输入

针对游戏语音输入、手机输入法场景，支持“边说边出文字”的效果，提升沟通效率。

课堂内容分析

将课堂录音文件进行识别，通过文字还原课堂场景，分析教学内容，提升教学质量。

音视频字幕

支持自动将音/视频中的语音、歌词识别转换为文本，一键生成对应的字幕内容。

语音交互

人机交互提供语音输入渠道，实时将语音转成文字作为输入，和设备/硬件等快速交互。

内容审核质检

将录音识别为文字，通过质检规则分析文本，及时发现违规内容或发掘潜在商机。

会议访谈转写

将会议、访谈音频实时或异步识别为文字，自动切分有语音部分识别，同时自动分段。

游戏语音输入

针对游戏语音输入、手机输入法场景，支持“边说边出文字”的效果，提升沟通效率。

课堂内容分析

将课堂录音文件进行识别，通过文字还原课堂场景，分析教学内容，提升教学质量。

语音交互

人机交互提供语音输入渠道，实时将语音转成文字作为输入，和设备/硬件等快速交互。

内容审核质检

将录音识别为文字，通过质检规则分析文本，及时发现违规内容或发掘潜在商机。

会议访谈转写

将会议、访谈音频实时或异步识别为文字，自动切分有语音部分识别，同时自动分段。

游戏语音输入

针对游戏语音输入、手机输入法场景，支持“边说边出文字”的效果，提升沟通效率。