You need to enable JavaScript to run this app.
导航
产品概述
最近更新时间:2024.06.27 11:03:33首次发布时间:2024.06.27 11:03:33
产品简介

本产品以离线的方式提供服务,高效支持海量PDF文件解析并输出markdown、Json结果,赋能大语言模型的训练数据处理以及文档问答业务场景。

通过对中英文PDF文件进行版面分析、文字识别,按照人类正常阅读顺序提取PDF文件中的文本、表格、图片、公式等重要内容信息,覆盖论文、年报、书籍、合同等常见文件内容,同时支持数字版与扫描版PDF文件;

产品优势
  • 识别准确率高: 基于海量数据与深度学习算法,PDF识别准确率处于行业领先水平。

  • 场景覆盖全面: 支持PDF文件中的多类型文本检测与准确识别,支持复杂表格、数学物理公式,兼容复杂排版格式,为大语言模型提供更高质量语料。

  • 文件解析时效快: 基于火山引擎海量计算资源,可在高效完成解析交付大量数据处理任务。

  • 精度持续提升: 算法持续迭代,识别精度持续提升

应用场景
  • 训练数据处理:

    • 通过PDF解析技术提取论文、书籍、行业报告等知识密集型PDF文档中的文字/公式/表格信息,为生成式大语言模型训练提供优质训练数据
  • 文档内容识别:

    • 通过PDF解析技术提取合同、简历、小说等PDF文档中的文字信息,便于留存及分类,提升录入、检索效率,广泛应用于司法法务、金融、招聘、保险等自动化流程。
  • 内外企业联动:

    • 通过PDF解析技术快速审查识别、校验和录入与友商合作的文件(如合同、报表等),存储文件至数据库,便于后续查询与核对。
Demo展示

alt

计费说明

详细结算规则请查阅  《AI中台服务专用条款》   《AI中台计费结算规则》 。

按用量后付费模式

API计费方式单价(元/页)
PDF识别按调用页数扣费0.008

备注:
1、本产品支持整份多页PDF文件,按文件页数计费;
2、该服务仅支持后付费月结,火山引擎官网会按自然月给您推送月结账单;