支持对数字扫描版PDF、图片进行深度解析和结构化处理,通过版面分析、文字识别,按照阅读顺序提取PDF、图片中的文本、表格、公式、图片等关键信息,最终组织成半结构化的带有语义信息和逻辑结构的文档,并以Markdown、JSON格式返回,覆盖常见论文、书籍、行业报告、公司内部文件等众多文件类型,加速大语言模型训练、开发、应用;
支持解析元素丰富: 支持解析PDF、图片文件中的常见文本、公式、表格、图片等众多种元素,同时支持的元素种类以及解析效果在不断优化中;
支持文件类型广泛: 基于海量数据与深度学习算法,支持扫描版、数字版PDF文件,覆盖论文、书籍、行业文档、公司内部文件等众多文件类型。
公式识别准确率高: 支持数学、物理、无机化学公式,覆盖K12、高等教育中常见的公式符号类型,在矩阵、行列式、积分等复杂公式场景均有较好表现。
阅读顺序还原准确: 强大的版面分析能力,支持常见单栏、双栏、多栏等文档布局形式,同时兼容支持侧边栏附注、段落首字符大写等特殊场景,高质量还原文档语义顺序。
解析结果输出灵活: 支持按文档、页面级别分别输出为Markdown、JSON格式的解析结果,满足不同业务场景下的数据对接和处理诉求。
大模型Chatbot问答
大模型训练语料处理
行业文档识别
详细结算规则请查阅 《AI中台服务专用条款》 《AI中台计费结算规则》 。
温馨提示:
智能文档解析服务按上传处理PDF、图片页数进行收费,以下调用量额度均代表页
API | 免费调用量限额(页) | 免费调用QPS限额 |
---|---|---|
智能文档解析 | 500 | 1 |
API | 计费方式 | 月调用量(页) | 单价(元/页) |
---|---|---|---|
智能文档解析 | 按调用页数扣费 | 任意调用页数 | 0.02 |
产品v3版本于2024.9.12更新发布,价格降低效果提升,如此前已开通该服务且需下单资源包,请于控制台关闭该产品服务后重新开通,再下单购买资源包以获取最新低价。
API | 计费方式 | 调用量(页) | 价格(元) |
---|---|---|---|
智能文档解析 | 次(页)数包 | 100,000 | 1,900 |
500,000 | 9,000 | ||
1,000,000 | 16,000 | ||
5,000,000 | 70,000 |
暂不支持线上增购QPS;正式服务支持 2QPS;