文档图片检索生成--火山方舟大模型服务平台-火山引擎

文档中心

立即注册

导航

火山方舟大模型服务平台

文档图片检索生成

最近更新时间：2024.08.29 21:59:42首次发布时间：2024.07.22 12:18:50

说明

在文档构建时，我们往往需要辅助图片来直观解释文字含义，如品牌宣传、产品说明书等。因此，在进行大模型问答时，也同样可以充分利用图片信息，让大模型进行增强回答。

一、原理介绍

1、OCR 识别

OCR（Optical Character Recognition）即光学字符识别。它是一种将图像中的文字转换为可编辑文本的技术。
OCR 技术过往在许多领域都有广泛的应用，如文档数字化、自动化数据输入、文本识别、车牌识别、票据识别等。它可以提高工作效率、减少人工输入错误，并实现信息的快速检索和处理。
更多火山 OCR 识别技术的说明，可参考：https://www.volcengine.com/docs/6790/116977

2、OCR 识别在 RAG 下的应用

RAG 服务提供了 OCR 技术进行图片类信息增强，支持对 pdf、docx 文档内的图片进行文字识别，并将其保存成独立切片。为进一步提高检索效果，服务提供了一套内置文本拼接策略，在进行检索时，可根据语义+关键词混合索引到相关切片，并返回原始图片信息。

二、操作步骤

1、创建知识库

在创建知识库页面，选择【默认切片规则】，开启【图片 OCR 】开关。

说明

自定义切片规则暂不支持开启 OCR 功能

2、上传文档

文档上传处理后，点击【处理结果】可以查看文档切片，其中图片类切片，会自动识别其文字，左右对比展示。

说明

目前仅对 pdf、docx 格式文档解析开放 OCR 能力

点击图片，可以放大查看原始图片内容。

3、检索测试

点击【检索测试】，可以尝试询问与图片内容相关的问题，并查看检索返回的切片列表和分值。