说明
在文档构建时,我们往往需要辅助图片来直观解释文字含义,如品牌宣传、产品说明书等。因此,在进行大模型问答时,也同样可以充分利用图片信息,让大模型进行增强回答。
OCR(Optical Character Recognition)即光学字符识别。它是一种将图像中的文字转换为可编辑文本的技术。
OCR 技术过往在许多领域都有广泛的应用,如文档数字化、自动化数据输入、文本识别、车牌识别、票据识别等。它可以提高工作效率、减少人工输入错误,并实现信息的快速检索和处理。
更多火山 OCR 识别技术的说明,可参考:https://www.volcengine.com/docs/6790/116977
RAG 服务提供了 OCR 技术进行图片类信息增强,支持对 pdf、docx 文档内的图片进行文字识别,并将其保存成独立切片。为进一步提高检索效果,服务提供了一套内置文本拼接策略,在进行检索时,可根据语义+关键词混合索引到相关切片,并返回原始图片信息。
在创建知识库页面,选择【默认切片规则】,开启【图片 OCR 】开关。
说明
文档上传处理后,点击【处理结果】可以查看文档切片,其中图片类切片,会自动识别其文字,左右对比展示。
说明
点击图片,可以放大查看原始图片内容。
点击【检索测试】,可以尝试询问与图片内容相关的问题,并查看检索返回的切片列表和分值。