说明
针对包含复杂图文信息的问答场景,知识库产品基于 Doubao 多模态大模型提供了一套图文问答最佳实践,提升了知识库在图像信息理解、抽取及问答任务中的准确性。
知识库基于 OCR 技术对文档内的图文进行解析召回,结合 Doubao 多模态大模型对图文内容进行理解生成。
Doubao 多模态大模型,具备强大的图片理解与推理能力,以及精准的指令理解能力。模型在图像文本信息抽取、基于图像的推理任务上有展现出了强大的性能,能够应用于更复杂、更广泛的视觉问答任务。
Doubao 多模态大模型可广泛应用于多个领域,如文档图片解析、教育场景中的自动批改与解题解析、工业质检中的图像识别与缺陷检测、图表内容结构化提取等。它能够有效提高图像信息处理的自动化程度,并在多模态场景中大幅提升任务的准确性和效率。
更多关于 Doubao 多模态大模型的说明可参考 Doubao 多模态大模型
OCR(Optical Character Recognition)即光学字符识别。它是一种将图像中的文字转换为可编辑文本的技术。
OCR 技术过往在许多领域都有广泛的应用,如文档数字化、自动化数据输入、文本识别、车牌识别、票据识别等。它可以提高工作效率、减少人工输入错误,并实现信息的快速检索和处理。
更多火山 OCR 识别技术的说明,可参考 OCR 产品简介。
在创建知识库页面,数据类型选择【非结构化数据】,切片方式选择【默认切片规则】,开启【图片 OCR 】开关。
说明
目前的知识库链路下,开启 OCR 是确保图片检索时被带回的前置步骤。
文档上传处理后,其中的图片会被自动解析切分,点击【切片详情】即可查看具体的切片内容。
说明
知识库目前仅对 pdf、docx 格式文档解析开放 OCR 能力。
在【知识问答】页面,选择图像理解模型,可以尝试询问与图片内容相关的问题,并查看检索召回的图文和多模态模型的生成效果。
针对图文问答场景,选择多模态大模型能够更好地理解图片中的信息,而大语言模型则难以有效回答与图片相关的问题。本节将通过两个实例展示多模态大模型在此类场景下优于大语言模型的实际效果。
样例原始文档链接:Case1、Case2
Case1:咨询职业技能培训赛道的上市公司。
Query:企业家培训的公司有哪些?
Case2:分析教育行业智能硬件家长用户画像。
Query:教育智能硬件家长用户画像中那个年龄的占比最大