本产品以离线的方式提供服务,高效支持海量PDF文件解析并输出markdown、Json结果,赋能大语言模型的训练数据处理以及文档问答业务场景。
通过对中英文PDF文件进行版面分析、文字识别,按照人类正常阅读顺序提取PDF文件中的文本、表格、图片、公式等重要内容信息,覆盖论文、年报、书籍、合同等常见文件内容,同时支持数字版与扫描版PDF文件;
识别准确率高: 基于海量数据与深度学习算法,PDF识别准确率处于行业领先水平。
场景覆盖全面: 支持PDF文件中的多类型文本检测与准确识别,支持复杂表格、数学物理公式,兼容复杂排版格式,为大语言模型提供更高质量语料。
文件解析时效快: 基于火山引擎海量计算资源,可在高效完成解析交付大量数据处理任务。
精度持续提升: 算法持续迭代,识别精度持续提升
训练数据处理:
文档内容识别:
内外企业联动:
详细结算规则请查阅 《AI中台服务专用条款》 《AI中台计费结算规则》 。
API | 计费方式 | 单价(元/页) |
---|---|---|
PDF识别 | 按调用页数扣费 | 0.008 |
备注:
1、本产品支持整份多页PDF文件,按文件页数计费;
2、该服务仅支持后付费月结,火山引擎官网会按自然月给您推送月结账单;