You need to enable JavaScript to run this app.
导航
调用方式
最近更新时间:2023.08.14 17:27:47首次发布时间:2022.07.21 17:01:19
接口简介

通用文字识别服务提供「从图片到文字」的完整解决方案,可识别中英文内容,不仅在高并发环境下以毫秒级的速度进行识别,还可精准识别截图、扫描、拍照、视频抽帧等多类型图片。

限制条件
名称内容
输入要求1. 文件格式:支持JPG、JPEG、PNG、BMP、PDF等常见格式,建议使用JPG格式。
2. 文件大小:
a.图片及PDF文件,Base64编码和urlencode之后不超过8MB;
b.如果传图片及PDF完整URL,URL对应文件大小建议不要超过8MB。
3. 输入文件过大时,返回的HttpCode如下:400/413/502。
4. 输入多页PDF时,默认只识别第一页。
请求说明

基本信息

名称内容
接口地址https://visual.volcengineapi.com
请求方式POST
Content-Typeapplication/x-www-form-urlencoded
是否需要鉴权

请求参数

Header请求参数

以下请求参数列表仅列出了接口请求参数和必要公共参数,完整公共参数列表见 公共参数

名称类型是否必填描述
X-DateString使用UTC时间,精确到秒。请使用格式:YYYYMMDD'T'HHMMSS'Z' ,例如:20201103T104027Z
AuthorizationStringHMAC-SHA256:签名方法
-Credential为签名凭证,其中:
-AccessKeyId为访问密钥ID,可在 访问密钥(Access Key) 获取;
-ShortDate为请求的短时间,使用UTC时间,精确到日。请使用格式:YYYYMMDD,例如:20180201
-Region为请求地区,国内一般为为cn-north-1
-Service为请求的服务,文字识别一般为cv
-SignedHeaders为参与签名计算的头部信息,content-typehost 为必选头部;
-Signature为签名,可在 签名方法 获取。
注:我们提供了SDK及签名示例供您实现服务快速接入,具体可参考 快速接入
例如:HMAC-SHA256 Credential={AccessKeyId}/{ShortDate}/{Region}/{Service}/request, SignedHeaders={SignedHeaders}, Signature={Signature}
X-Security-TokenString指安全令牌服务(Security Token Service,STS) 颁发的临时安全凭证中的SessionToken,使用长期密钥时无需填写该参数。

Query请求参数

参数可选/必选类型说明
Action必选String接口名,取值:OCRNormal
Version必选String版本号,取值:2020-08-26

Body参数

参数可选/必选类型说明
image_base64与image_url二选一String图片/PDF文件,base64编码
注意: 只需要传图片/PDF的base64值,类似data:image/png;base64的图片头不要传入
image_url与image_base64二选一String图片/PDF文件的URL链接
注意: 要求image_base64与image_url二选一,如果2个字段都有,优先解析image_base64。
approximate_pixel可选String文本行高度差距为approximate_pixel时近似为同一行,未选时默认为"0"
mode可选String文字识别模式:"default"-默认模式、"text_block"-文本块模式
filter_thresh可选String置信分数低于filter_thresh的文本行将被过滤掉, 默认为"80", 最大为"100"
half_to_full可选String将中文文本行中部分英文字符映射为中文字符, 如“变为”, 开启时值设置为"true", 默认为"false"
输出说明

通用输出参数

请参考通用返回字段及错误码 |

业务输出参数

data 字段说明

字段类型说明备注
line_textsArray of String识别结果文本识别结果
line_rectsArray of RectInfo文本行位置识别结果中每一行的位置信息
line_probsArray of Float文本行置信度识别结果中每一行的文字识别置信度
chars2D Array of CharInfo文字信息识别结果中每一行中的所有文字信息
polygons3D Array of int行矩形框信息(可能有倾斜矩形)每行矩形框四点坐标信息[左上, 右上, 右下, 左下]

RectInfo 字段说明
输入图片文件时,返回字段说明:

字段类型说明备注
xint当前文本行的横坐标
yint当前文本行的纵坐标
widthint当前文本行的宽度
heightint当前文本行的高度

输入PDF文件时,返回字段说明:

字段类型说明备注
xfloat当前文本行的横坐标占页面宽度的百分比相对坐标形式
yfloat当前文本行的纵坐标占页面高度的百分比相对坐标形式
widthfloat当前文本行的宽度占页面宽度的百分比相对坐标形式
heightfloat当前文本行的高度占页面高度的百分比相对坐标形式

CharInfo 字段说明
输入图片文件时,返回字段说明:

字段类型说明备注
xint当前文字的横坐标
yint当前文字的纵坐标
widthint当前文本行的宽度
heightint当前文本行的高度
scorefloat当前文字置信度
charstring文字文本内容

输入PDF文件时,返回字段说明:

字段类型说明备注
xfloat当前文字的横坐标占页面宽度的百分比相对坐标形式
yfloat当前文字的纵坐标占页面高度的百分比相对坐标形式
widthfloat当前文本行的宽度占页面宽度的百分比相对坐标形式
heightfloat当前文本行的高度占页面高度的百分比相对坐标形式
scorefloat当前文字置信度
charstring文字文本内容

输出示例

{
    "code":10000,
    "data":{
        "line_texts": [""],
        "line_rects": [{
            "x": 1,
            "y": 2,
            "width": 1,
            "height": 1
        }]
        "chars": [[{
        	"x": 1,
            "y": 2,
            "width": 1,
            "height": 1,
            "score": 0.9,
            "char": ""
        }]]
        "polygons": [[[1,2],[3,4],[5,6],[7,8]]]
    },
    "message":"Success",
    "request_id":"6838889517957515275",
    "time_elapsed":"41.897331ms"
}
错误码

通用错误码

请参考通用返回字段及错误码

业务错误码

HttpCode错误码错误消息描述
20010000请求成功
40050205"Image Size Exceeds Maximum Limit: please compress the image"输入文件过大
40050206"Invalid Input Image: image is empty"输入图片为空或下载图片失败
40050207"Image Decode Error: image format unsupported"图片解码错误
40050217"Process PDF File Error."处理PDF文件错误
40063001"Call OCR Server Failed."OCR服务处理该输入时出现错误, 建议先确认请求的图片数据是否正常,如图片数据无问题请联系工作人员并提交对应的request_id