大模型录音文件识别服务的处理流程分为提交任务和查询结果两个阶段
任务提交:提交音频链接,并获取服务端分配的任务 ID
结果查询:通过任务 ID 查询转写结果
火山地址:https://openspeech.bytedance.com/api/v3/auc/bigmodel/submit
请求方式:HTTP POST。
请求和应答,均采用在 HTTP BODY 里面传输 JSON 格式字串的方式。
Header 需要加入内容类型标识:
Key | 说明 | Value 示例 |
---|---|---|
X-Api-App-Key | 使用火山引擎控制台获取的APP ID,可参考 控制台使用FAQ-Q1 | 123456789 |
X-Api-Access-Key | 使用火山引擎控制台获取的Access Token,可参考 控制台使用FAQ-Q1 | your-access-key |
X-Api-Resource-Id | 表示调用服务的资源信息 ID,固定值volc.bigasr.auc | volc.bigasr.auc |
X-Api-Request-Id | 用于提交和查询任务的任务ID,推荐传入随机生成的UUID | 67ee89ba-7050-4c04-a3d7-ac61a63499b3 |
X-Api-Sequence | 发包序号,固定值,-1 |
字段 | 说明 | 层级 | 格式 | 是否必填 | 备注 |
---|---|---|---|---|---|
user | 用户相关配置 | 1 | dict | ||
uid | 用户标识 | 2 | string | 建议采用 IMEI 或 MAC。 | |
audio | 音频相关配置 | 1 | dict | ✓ | |
url | 音频链接 | 2 | string | ✓ | |
format | 音频容器格式 | 2 | string | ✓ | raw / wav / mp3 / ogg |
codec | 音频编码格式 | 2 | string | raw / opus,默认为 raw(pcm) 。 | |
rate | 音频采样率 | 2 | int | 默认为 16000。 | |
bits | 音频采样点位数 | 2 | int | 默认为 16。 | |
channel | 音频声道数 | 2 | int | 1(mono) / 2(stereo),默认为1。 | |
request | 请求相关配置 | 1 | dict | ✓ | |
model_name | 模型名称 | 2 | string | ✓ | 目前只有bigmodel |
enable_itn | 启用itn | 2 | bool | 默认为false。 | |
enable_punc | 启用标点 | 2 | bool | 默认为false。 | |
enable_ddc | 启用顺滑 | 2 | bool | 默认为false。 | |
enable_speaker_info | 启用说话人聚类分离 | 2 | bool | 默认为false | |
enable_channel_split | 启用双声道识别 | 2 | bool | 默认为false | |
show_utterances | 输出语音停顿、分句、分词信息 | 2 | bool | ||
vad_segment | 使用vad分句 | 2 | bool | 默认为false,默认是语义分句。 | |
corpus | 语料/干预词等 | 2 | string | ||
boosting_table_name | 自学习平台上设置的热词词表名称 | 3 | string | 热词功能和设置方法可以参考文档 | |
context | 上下文功能 | 3 | string | 热词直传,限制200 tokens
|
请求示例:
{ "user": { "uid": "388808087185088" }, "audio": { "format": "mp3", "url": "http://xxx.com/obj/sample.mp3" }, "request": { "model_name": "bigmodel", "enable_itn": true } }
Response header如下:
Key | 说明 | Value 示例 |
---|---|---|
X-Tt-Logid | 服务端返回的 logid,建议用户获取和打印方便定位问题 | 202407261553070FACFE6D19421815D605 |
X-Api-Status-Code | 提交任务后服务端返回的状态码,20000000表示提交成功,其他表示失败 | |
X-Api-Message | 提交任务后服务端返回的信息,OK表示成功,其他表示失败 |
Response body为空
火山地址:https://openspeech.bytedance.com/api/v3/auc/bigmodel/query
请求方式:HTTP POST。
请求和应答,均采用在 HTTP BODY 里面传输 JSON 格式字串的方式。
Header 需要加入内容类型标识:
Key | 说明 | Value 示例 |
---|---|---|
X-Api-App-Key | 使用火山引擎控制台获取的APP ID,可参考 控制台使用FAQ-Q1 | 123456789 |
X-Api-Access-Key | 使用火山引擎控制台获取的Access Token,可参考 控制台使用FAQ-Q1 | your-access-key |
X-Api-Resource-Id | 表示调用服务的资源信息 ID,固定值volc.bigasr.auc | volc.bigasr.auc |
X-Api-Request-Id | 用于提交和查询任务的任务ID。查询时需使用提交成功的任务Id | 67ee89ba-7050-4c04-a3d7-ac61a63499b3 |
body为空json:
{}
Response header如下:
Key | 说明 | Value 示例 |
---|---|---|
X-Tt-Logid | 服务端返回的 logid,建议用户获取和打印方便定位问题 | 202407261553070FACFE6D19421815D605 |
X-Api-Status-Code | 提交任务后服务端返回的状态码,具体错误码参考下面错误码列表 | |
X-Api-Message | 提交任务后服务端返回的信息,OK表示成功,其他表示失败 |
Response Body格式 :JSON。
应答字段:
字段 | 说明 | 层级 | 格式 | 备注 |
---|---|---|---|---|
result | 识别结果 | 1 | list | 仅当识别成功时填写 |
text | 整个音频的识别结果文本 | 2 | string | 仅当识别成功时填写。 |
confidence | 识别结果文本置信度 | 2 | int | 仅当识别成功时填写。 |
utterances | 识别结果语音分句信息 | 2 | list | 仅当识别成功且开启show_utterances时填写。 |
text | utterance级的文本内容 | 3 | string | 仅当识别成功且开启show_utterances时填写。 |
start_time | 起始时间(毫秒) | 3 | int | 仅当识别成功且开启show_utterances时填写。 |
end_time | 结束时间(毫秒) | 3 | int | 仅当识别成功且开启show_utterances时填写。 |
definite | 是否是一个确定分句 | 3 | bool | 仅当识别成功且开启show_utterances时填写。 |
应答示例:
返回文本的形式:
{ "audio_info": {"duration": 10000}, "result": { "text": "这是字节跳动, 今日头条母公司。", "utterances": [ { "definite": true, "end_time": 1705, "start_time": 0, "text": "这是字节跳动,", "words": [ { "blank_duration": 0, "end_time": 860, "start_time": 740, "text": "这" }, { "blank_duration": 0, "end_time": 1020, "start_time": 860, "text": "是" }, { "blank_duration": 0, "end_time": 1200, "start_time": 1020, "text": "字" }, { "blank_duration": 0, "end_time": 1400, "start_time": 1200, "text": "节" }, { "blank_duration": 0, "end_time": 1560, "start_time": 1400, "text": "跳" }, { "blank_duration": 0, "end_time": 1640, "start_time": 1560, "text": "动" } ] }, { "definite": true, "end_time": 3696, "start_time": 2110, "text": "今日头条母公司。", "words": [ { "blank_duration": 0, "end_time": 3070, "start_time": 2910, "text": "今" }, { "blank_duration": 0, "end_time": 3230, "start_time": 3070, "text": "日" }, { "blank_duration": 0, "end_time": 3390, "start_time": 3230, "text": "头" }, { "blank_duration": 0, "end_time": 3550, "start_time": 3390, "text": "条" }, { "blank_duration": 0, "end_time": 3670, "start_time": 3550, "text": "母" }, { "blank_duration": 0, "end_time": 3696, "start_time": 3670, "text": "公" }, { "blank_duration": 0, "end_time": 3696, "start_time": 3696, "text": "司" } ] } ] }, "audio_info": { "duration": 3696 } }
错误码 | 含义 | 说明 |
---|---|---|
20000000 | 成功 | |
20000001 | 正在处理中 | |
20000002 | 任务在队列中 | |
45000001 | 请求参数无效 | 请求参数缺失必需字段 / 字段值无效 / 重复请求。 |
45000002 | 空音频 | |
45000151 | 音频格式不正确 | |
550xxxx | 服务内部处理错误 | |
55000031 | 服务器繁忙 | 服务过载,无法处理当前请求。 |
python: