You need to enable JavaScript to run this app.
导航
文档图片检索生成
最近更新时间:2024.08.29 21:59:42首次发布时间:2024.07.22 12:18:50

说明

在文档构建时,我们往往需要辅助图片来直观解释文字含义,如品牌宣传、产品说明书等。因此,在进行大模型问答时,也同样可以充分利用图片信息,让大模型进行增强回答。

一、原理介绍

1、OCR 识别

OCR(Optical Character Recognition)即光学字符识别。它是一种将图像中的文字转换为可编辑文本的技术。
OCR 技术过往在许多领域都有广泛的应用,如文档数字化、自动化数据输入、文本识别、车牌识别、票据识别等。它可以提高工作效率、减少人工输入错误,并实现信息的快速检索和处理。
更多火山 OCR 识别技术的说明,可参考:https://www.volcengine.com/docs/6790/116977

2、OCR 识别在 RAG 下的应用

RAG 服务提供了 OCR 技术进行图片类信息增强,支持对 pdf、docx 文档内的图片进行文字识别,并将其保存成独立切片。为进一步提高检索效果,服务提供了一套内置文本拼接策略,在进行检索时,可根据语义+关键词混合索引到相关切片,并返回原始图片信息。

二、操作步骤

1、创建知识库

在创建知识库页面,选择【默认切片规则】,开启【图片 OCR 】开关。

说明

  • 自定义切片规则暂不支持开启 OCR 功能

图片

2、上传文档

文档上传处理后,点击【处理结果】可以查看文档切片,其中图片类切片,会自动识别其文字,左右对比展示。

说明

  • 目前仅对 pdf、docx 格式文档解析开放 OCR 能力

图片
点击图片,可以放大查看原始图片内容。
图片

3、检索测试

点击【检索测试】,可以尝试询问与图片内容相关的问题,并查看检索返回的切片列表和分值。
图片