You need to enable JavaScript to run this app.
导航
能力介绍
最近更新时间:2024.11.07 14:22:50首次发布时间:2022.07.21 17:01:19
产品简介

支持对数字扫描版PDF、图片进行深度解析和结构化处理,通过版面分析、文字识别,按照阅读顺序提取PDF、图片中的文本、表格、公式、图片等关键信息,最终组织成半结构化的带有语义信息和逻辑结构的文档,并以Markdown、JSON格式返回,覆盖常见论文、书籍、行业报告、公司内部文件等众多文件类型,加速大语言模型训练、开发、应用;

产品优势
  • 支持解析元素丰富: 支持解析PDF、图片文件中的常见文本、公式、表格、图片等众多种元素,同时支持的元素种类以及解析效果在不断优化中;

  • 支持文件类型广泛: 基于海量数据与深度学习算法,支持扫描版、数字版PDF文件,覆盖论文、书籍、行业文档、公司内部文件等众多文件类型。

  • 公式识别准确率高: 支持数学、物理、无机化学公式,覆盖K12、高等教育中常见的公式符号类型,在矩阵、行列式、积分等复杂公式场景均有较好表现。

  • 阅读顺序还原准确: 强大的版面分析能力,支持常见单栏、双栏、多栏等文档布局形式,同时兼容支持侧边栏附注、段落首字符大写等特殊场景,高质量还原文档语义顺序。

  • 解析结果输出灵活: 支持按文档、页面级别分别输出为Markdown、JSON格式的解析结果,满足不同业务场景下的数据对接和处理诉求。

应用场景
  • 大模型Chatbot问答

    • 支持解析各类型PDF、图片文件内容,例如论文、书籍、行业文档、公司内部报告等。将解析内容结合用户prompt提供给大模型,提升大模型回答生成质量,让大模型答有所据,问答更准确的同时减少幻觉。
  • 大模型训练语料处理

    • 支持解析各类公开、垂类高质量大模型训练语料,并以大模型友好的Markdown格式返回。提升数据处理效率质量的同时,帮助减少训练数据处理过程中的人力介入成本,加速大模型训练,提升模型训练效果。
  • 行业文档识别

    • 行业文档:提取合同、简历、小说等文档中的文字信息,便于电子化留存及分类,提升录入、检索效率,广泛应用于司法法务、金融、招聘、保险等自动化流程。
    • 金融分析:高效自动化处理各类财务报告以及财务报表、行业报告等众多金融行业文件,帮助解析关键指标和数据,提高分析效率。
    • 学术研究:快速提取论文、书籍中的关键信息,辅助文献综述和数据分析。
Demo展示

alt

计费说明

详细结算规则请查阅  《AI中台服务专用条款》   《AI中台计费结算规则》 。

温馨提示:

  • 次数包仅在开通按调用次数付费后方可购买,若按调用次数付费和次(页)数包两种方式同时开通,则优先消耗次数包额度,抵扣完毕后自动转为按调用次数付费方式。
  • 调用量需按月结算,当余额不足时,会在两个小时后关停服务,24小时内补交即可恢复。

免费服务

智能文档解析服务按上传处理PDF、图片页数进行收费,以下调用量额度均代表页

API免费调用量限额(页)免费调用QPS限额
智能文档解析5001

按调用量后付费模式

API计费方式月调用量(页)单价(元/页)
智能文档解析按调用页数扣费任意调用页数0.02

次数包预付费模式

产品v3版本于2024.9.12更新发布,价格降低效果提升,如此前已开通该服务且需下单资源包,请于控制台关闭该产品服务后重新开通,再下单购买资源包以获取最新低价。

API计费方式调用量(页)价格(元)

智能文档解析

次(页)数包
(包年资源包,可支持叠加)
(默认支持2QPS)

100,000

1,900

500,0009,000
1,000,00016,000
5,000,00070,000

增购QPS

暂不支持线上增购QPS;正式服务支持 2QPS;