说明
在文档构建时,我们往往需要辅助图片来直观解释文字含义,如品牌宣传、产品说明书等。因此,在进行大模型问答时,也同样可以充分利用图片信息,让大模型进行增强回答。
OCR(Optical Character Recognition)即光学字符识别。它是一种将图像中的文字转换为可编辑文本的技术。
OCR 技术过往在许多领域都有广泛的应用,如文档数字化、自动化数据输入、文本识别、车牌识别、票据识别等。它可以提高工作效率、减少人工输入错误,并实现信息的快速检索和处理。
更多火山 OCR 识别技术的说明,可参考 OCR 产品简介。
RAG 服务提供了 OCR 技术进行图片类信息增强,支持对 pdf、docx 文档内的图片进行文字识别,并将其保存成独立切片。为进一步提高检索效果,服务提供了一套内置文本拼接策略,在进行检索时,可根据语义+关键词混合索引到相关切片,并返回原始图片信息。
在创建知识库页面,选择【默认切片规则】,开启【图片 OCR 】开关。
说明
文档上传处理后,点击【处理结果】可以查看文档切片,其中图片类切片,会自动通过 OCR 识别提取其中的文字。点击图片,可以放大查看原始图片,并在图片右侧展示 OCR 提取的切片文本内容,便于进行提取后 OCR 文本与原图片中文本的对比。
说明
点击【检索测试】,可以尝试询问与图片内容相关的问题,并查看大语言模型的生成效果。
点开模型生成回答中的图片,可以看到原始切片、模型回答,便于对比查看模型回答与原始切片的差异。