You need to enable JavaScript to run this app.
导航
【知识库】文档图片检索增强生成
最近更新时间:2024.09.18 20:45:18首次发布时间:2024.07.12 15:35:43

说明

在文档构建时,我们往往需要辅助图片来直观解释文字含义,如品牌宣传、产品说明书等。因此,在进行大模型问答时,也同样可以充分利用图片信息,让大模型进行增强回答。

一、原理介绍

1、OCR 识别

OCR(Optical Character Recognition)即光学字符识别。它是一种将图像中的文字转换为可编辑文本的技术。
OCR 技术过往在许多领域都有广泛的应用,如文档数字化、自动化数据输入、文本识别、车牌识别、票据识别等。它可以提高工作效率、减少人工输入错误,并实现信息的快速检索和处理。
更多火山 OCR 识别技术的说明,可参考 OCR 产品简介

2、OCR 识别在 RAG 下的应用

RAG 服务提供了 OCR 技术进行图片类信息增强,支持对 pdf、docx 文档内的图片进行文字识别,并将其保存成独立切片。为进一步提高检索效果,服务提供了一套内置文本拼接策略,在进行检索时,可根据语义+关键词混合索引到相关切片,并返回原始图片信息。

二、操作步骤

1、创建知识库

在创建知识库页面,选择【默认切片规则】,开启【图片 OCR 】开关。

说明

  • 自定义切片规则暂不支持开启 OCR 功能

图片

2、上传文档

文档上传处理后,点击【处理结果】可以查看文档切片,其中图片类切片,会自动通过 OCR 识别提取其中的文字。点击图片,可以放大查看原始图片,并在图片右侧展示 OCR 提取的切片文本内容,便于进行提取后 OCR 文本与原图片中文本的对比。

说明

  • 目前仅对 pdf、docx 格式文档解析开放 OCR 能力

图片

图片

3、检索生成

点击【检索测试】,可以尝试询问与图片内容相关的问题,并查看大语言模型的生成效果。
图片
点开模型生成回答中的图片,可以看到原始切片、模型回答,便于对比查看模型回答与原始切片的差异。
图片