You need to enable JavaScript to run this app.
导航
大模型录音文件识别API
最近更新时间:2024.09.14 09:53:25首次发布时间:2024.08.05 12:54:35

流程简介

大模型录音文件识别服务的处理流程分为提交任务和查询结果两个阶段

  • 任务提交:提交音频链接,并获取服务端分配的任务 ID
  • 结果查询:通过任务 ID 查询转写结果

图片

提交任务

接口地址

火山地址:https://openspeech.bytedance.com/api/v3/auc/bigmodel/submit

请求

请求方式:HTTP POST。
请求和应答,均采用在 HTTP BODY 里面传输 JSON 格式字串的方式。
Header 需要加入内容类型标识:

Key

说明

Value 示例

X-Api-App-Key

使用火山引擎控制台获取的APP ID,可参考 控制台使用FAQ-Q1

123456789

X-Api-Access-Key

使用火山引擎控制台获取的Access Token,可参考 控制台使用FAQ-Q1

your-access-key

X-Api-Resource-Id

表示调用服务的资源信息 ID,固定值volc.bigasr.auc

volc.bigasr.auc

X-Api-Request-Id

用于提交和查询任务的任务ID,推荐传入随机生成的UUID

67ee89ba-7050-4c04-a3d7-ac61a63499b3

X-Api-Sequence

发包序号,固定值,-1

请求字段

字段

说明

层级

格式

是否必填

备注

user

用户相关配置

1

dict

uid

用户标识

2

string

建议采用 IMEI 或 MAC。

audio

音频相关配置

1

dict

url

音频链接

2

string

format

音频容器格式

2

string

raw / wav / mp3 / ogg

codec

音频编码格式

2

string

raw / opus,默认为 raw(pcm) 。

rate

音频采样率

2

int

默认为 16000。

bits

音频采样点位数

2

int

默认为 16。

channel

音频声道数

2

int

1(mono) / 2(stereo),默认为1。

request

请求相关配置

1

dict

model_name

模型名称

2

string

目前只有bigmodel

enable_itn

启用itn

2

bool

默认为false。
文本规范化 (ITN) 是自动语音识别 (ASR) 后处理管道的一部分。 ITN 的任务是将 ASR 模型的原始语音输出转换为书面形式,以提高文本的可读性。
例如,“一九七零年”->“1970年”和“一百二十三美元”->“$123”。

enable_punc

启用标点

2

bool

默认为false。

enable_ddc

启用顺滑

2

bool

默认为false。
**语义顺滑**‌是一种技术,旨在提高自动语音识别(ASR)结果的文本可读性和流畅性。这项技术通过删除或修改ASR结果中的不流畅部分,如停顿词、语气词、语义重复词等,使得文本更加易于阅读和理解。

enable_speaker_info

启用说话人聚类分离

2

bool

默认为false

enable_channel_split

启用双声道识别

2

bool

默认为false

show_utterances

输出语音停顿、分句、分词信息

2

bool

corpus

语料/干预词等

2

string

boosting_table_name

自学习平台上设置的热词词表名称

3

string

热词功能和设置方法可以参考文档

请求示例:

{
    "user": {
        "uid": "388808087185088"
    },
    "audio": {
        "format": "mp3",
        "url": "http://xxx.com/obj/sample.mp3"
    },
    "request": {
        "model_name": "bigmodel",
        "enable_itn": true
    }
}

应答

Response header如下:

Key

说明

Value 示例

X-Tt-Logid

服务端返回的 logid,建议用户获取和打印方便定位问题

202407261553070FACFE6D19421815D605

X-Api-Status-Code

提交任务后服务端返回的状态码,20000000表示提交成功,其他表示失败

X-Api-Message

提交任务后服务端返回的信息,OK表示成功,其他表示失败

Response body为空

查询结果

接口地址

火山地址:https://openspeech.bytedance.com/api/v3/auc/bigmodel/query

请求

请求方式:HTTP POST。
请求和应答,均采用在 HTTP BODY 里面传输 JSON 格式字串的方式。
Header 需要加入内容类型标识:

Key

说明

Value 示例

X-Api-App-Key

使用火山引擎控制台获取的APP ID,可参考 控制台使用FAQ-Q1

123456789

X-Api-Access-Key

使用火山引擎控制台获取的Access Token,可参考 控制台使用FAQ-Q1

your-access-key

X-Api-Resource-Id

表示调用服务的资源信息 ID,固定值volc.bigasr.auc

volc.bigasr.auc

X-Api-Request-Id

用于提交和查询任务的任务ID。查询时需使用提交成功的任务Id

67ee89ba-7050-4c04-a3d7-ac61a63499b3

body为空json:

{}

应答

Response header如下:

Key

说明

Value 示例

X-Tt-Logid

服务端返回的 logid,建议用户获取和打印方便定位问题

202407261553070FACFE6D19421815D605

X-Api-Status-Code

提交任务后服务端返回的状态码,具体错误码参考下面错误码列表

X-Api-Message

提交任务后服务端返回的信息,OK表示成功,其他表示失败

Response Body格式 :JSON。
应答字段:

字段

说明

层级

格式

备注

result

识别结果

1

list

仅当识别成功时填写

text

整个音频的识别结果文本

2

string

仅当识别成功时填写。

confidence

识别结果文本置信度

2

int

仅当识别成功时填写。

utterances

识别结果语音分句信息

2

list

仅当识别成功且开启show_utterances时填写。

text

utterance级的文本内容

3

string

仅当识别成功且开启show_utterances时填写。

start_time

起始时间(毫秒)

3

int

仅当识别成功且开启show_utterances时填写。

end_time

结束时间(毫秒)

3

int

仅当识别成功且开启show_utterances时填写。

definite

是否是一个确定分句

3

bool

仅当识别成功且开启show_utterances时填写。

应答示例:
返回文本的形式:

{
  "audio_info": {"duration": 10000},
  "result": {
      "text": "这是字节跳动, 今日头条母公司。",
      "utterances": [
        {
          "definite": true,
          "end_time": 1705,
          "start_time": 0,
          "text": "这是字节跳动,",
          "words": [
            {
              "blank_duration": 0,
              "end_time": 860,
              "start_time": 740,
              "text": "这"
            },
            {
              "blank_duration": 0,
              "end_time": 1020,
              "start_time": 860,
              "text": "是"
            },
            {
              "blank_duration": 0,
              "end_time": 1200,
              "start_time": 1020,
              "text": "字"
            },
            {
              "blank_duration": 0,
              "end_time": 1400,
              "start_time": 1200,
              "text": "节"
            },
            {
              "blank_duration": 0,
              "end_time": 1560,
              "start_time": 1400,
              "text": "跳"
            },
            {
              "blank_duration": 0,
              "end_time": 1640,
              "start_time": 1560,
              "text": "动"
            }
          ]
        },
        {
          "definite": true,
          "end_time": 3696,
          "start_time": 2110,
          "text": "今日头条母公司。",
          "words": [
            {
              "blank_duration": 0,
              "end_time": 3070,
              "start_time": 2910,
              "text": "今"
            },
            {
              "blank_duration": 0,
              "end_time": 3230,
              "start_time": 3070,
              "text": "日"
            },
            {
              "blank_duration": 0,
              "end_time": 3390,
              "start_time": 3230,
              "text": "头"
            },
            {
              "blank_duration": 0,
              "end_time": 3550,
              "start_time": 3390,
              "text": "条"
            },
            {
              "blank_duration": 0,
              "end_time": 3670,
              "start_time": 3550,
              "text": "母"
            },
            {
              "blank_duration": 0,
              "end_time": 3696,
              "start_time": 3670,
              "text": "公"
            },
            {
              "blank_duration": 0,
              "end_time": 3696,
              "start_time": 3696,
              "text": "司"
            }
          ]
        }
      ]
   },
  "audio_info": {
    "duration": 3696
  }
}

错误码

错误码

含义

说明

20000000

成功

20000001

正在处理中

20000002

任务在队列中

45000001

请求参数无效

请求参数缺失必需字段 / 字段值无效 / 重复请求。

45000002

空音频

45000151

音频格式不正确

550xxxx

服务内部处理错误

55000031

服务器繁忙

服务过载,无法处理当前请求。

Demo
seed_auc_demo.py
未知大小