通用文字识别服务提供「从图片到文字」的完整解决方案,可识别中英文内容,不仅在高并发环境下以毫秒级的速度进行识别,还可精准识别截图、扫描、拍照、视频抽帧等多类型图片。
名称 | 内容 |
---|---|
输入要求 | 1. 文件格式:支持JPG、JPEG、PNG、BMP、PDF等常见格式,建议使用JPG格式。 2. 文件大小: a.图片及PDF文件,Base64编码和urlencode之后不超过8MB; b.如果传图片及PDF完整URL,URL对应文件大小建议不要超过8MB。 3. 输入文件过大时,返回的HttpCode如下:400/413/502。 4. 输入多页PDF时,默认只识别第一页。 |
名称 | 内容 |
---|---|
接口地址 | https://visual.volcengineapi.com |
请求方式 | POST |
Content-Type | application/x-www-form-urlencoded |
是否需要鉴权 | 是 |
以下请求参数列表仅列出了接口请求参数和必要公共参数,完整公共参数列表见 公共参数。
名称 | 类型 | 是否必填 | 描述 |
---|---|---|---|
X-Date | String | 是 | 使用UTC时间,精确到秒。请使用格式:YYYYMMDD'T'HHMMSS'Z' ,例如:20201103T104027Z |
Authorization | String | 是 | HMAC-SHA256:签名方法 -Credential为签名凭证,其中: -AccessKeyId为访问密钥ID,可在 访问密钥(Access Key) 获取; -ShortDate为请求的短时间,使用UTC时间,精确到日。请使用格式: YYYYMMDD ,例如:20180201 ;-Region为请求地区,国内一般为为 cn-north-1 ;-Service为请求的服务,文字识别一般为 cv ;-SignedHeaders为参与签名计算的头部信息, content-type 和 host 为必选头部;-Signature为签名,可在 签名方法 获取。 注:我们提供了SDK及签名示例供您实现服务快速接入,具体可参考 快速接入 例如: HMAC-SHA256 Credential={AccessKeyId}/{ShortDate}/{Region}/{Service}/request, SignedHeaders={SignedHeaders}, Signature={Signature} |
X-Security-Token | String | 否 | 指安全令牌服务(Security Token Service,STS) 颁发的临时安全凭证中的SessionToken,使用长期密钥时无需填写该参数。 |
参数 | 可选/必选 | 类型 | 说明 |
---|---|---|---|
Action | 必选 | String | 接口名,取值:OCRNormal |
Version | 必选 | String | 版本号,取值:2020-08-26 |
参数 | 可选/必选 | 类型 | 说明 |
---|---|---|---|
image_base64 | 与image_url二选一 | String | 图片/PDF文件,base64编码 注意: 只需要传图片/PDF的base64值,类似data:image/png;base64的图片头不要传入 |
image_url | 与image_base64二选一 | String | 图片/PDF文件的URL链接 注意: 要求image_base64与image_url二选一,如果2个字段都有,优先解析image_base64。 |
approximate_pixel | 可选 | String | 文本行高度差距为approximate_pixel时近似为同一行,未选时默认为"0" |
mode | 可选 | String | 文字识别模式:"default"-默认模式、"text_block"-文本块模式 |
filter_thresh | 可选 | String | 置信分数低于filter_thresh的文本行将被过滤掉, 默认为"80", 最大为"100" |
half_to_full | 可选 | String | 将中文文本行中部分英文字符映射为中文字符, 如“变为”, 开启时值设置为"true", 默认为"false" |
请参考通用返回字段及错误码 |
data 字段说明
字段 | 类型 | 说明 | 备注 |
---|---|---|---|
line_texts | Array of String | 识别结果 | 文本识别结果 |
line_rects | Array of RectInfo | 文本行位置 | 识别结果中每一行的位置信息 |
line_probs | Array of Float | 文本行置信度 | 识别结果中每一行的文字识别置信度 |
chars | 2D Array of CharInfo | 文字信息 | 识别结果中每一行中的所有文字信息 |
polygons | 3D Array of int | 行矩形框信息(可能有倾斜矩形) | 每行矩形框四点坐标信息[左上, 右上, 右下, 左下] |
RectInfo 字段说明
输入图片文件时,返回字段说明:
字段 | 类型 | 说明 | 备注 |
---|---|---|---|
x | int | 当前文本行的横坐标 | |
y | int | 当前文本行的纵坐标 | |
width | int | 当前文本行的宽度 | |
height | int | 当前文本行的高度 |
输入PDF文件时,返回字段说明:
字段 | 类型 | 说明 | 备注 |
---|---|---|---|
x | float | 当前文本行的横坐标占页面宽度的百分比 | 相对坐标形式 |
y | float | 当前文本行的纵坐标占页面高度的百分比 | 相对坐标形式 |
width | float | 当前文本行的宽度占页面宽度的百分比 | 相对坐标形式 |
height | float | 当前文本行的高度占页面高度的百分比 | 相对坐标形式 |
CharInfo 字段说明
输入图片文件时,返回字段说明:
字段 | 类型 | 说明 | 备注 |
---|---|---|---|
x | int | 当前文字的横坐标 | |
y | int | 当前文字的纵坐标 | |
width | int | 当前文本行的宽度 | |
height | int | 当前文本行的高度 | |
score | float | 当前文字置信度 | |
char | string | 文字文本内容 |
输入PDF文件时,返回字段说明:
字段 | 类型 | 说明 | 备注 |
---|---|---|---|
x | float | 当前文字的横坐标占页面宽度的百分比 | 相对坐标形式 |
y | float | 当前文字的纵坐标占页面高度的百分比 | 相对坐标形式 |
width | float | 当前文本行的宽度占页面宽度的百分比 | 相对坐标形式 |
height | float | 当前文本行的高度占页面高度的百分比 | 相对坐标形式 |
score | float | 当前文字置信度 | |
char | string | 文字文本内容 |
{ "code":10000, "data":{ "line_texts": [""], "line_rects": [{ "x": 1, "y": 2, "width": 1, "height": 1 }] "chars": [[{ "x": 1, "y": 2, "width": 1, "height": 1, "score": 0.9, "char": "" }]] "polygons": [[[1,2],[3,4],[5,6],[7,8]]] }, "message":"Success", "request_id":"6838889517957515275", "time_elapsed":"41.897331ms" }
请参考通用返回字段及错误码
HttpCode | 错误码 | 错误消息 | 描述 |
---|---|---|---|
200 | 10000 | 无 | 请求成功 |
400 | 50205 | "Image Size Exceeds Maximum Limit: please compress the image" | 输入文件过大 |
400 | 50206 | "Invalid Input Image: image is empty" | 输入图片为空或下载图片失败 |
400 | 50207 | "Image Decode Error: image format unsupported" | 图片解码错误 |
400 | 50217 | "Process PDF File Error." | 处理PDF文件错误 |
400 | 63001 | "Call OCR Server Failed." | OCR服务处理该输入时出现错误, 建议先确认请求的图片数据是否正常,如图片数据无问题请联系工作人员并提交对应的request_id |