场景介绍
在 RAG 架构的离线入库场景,通过 LAS 产品提供的 分布式计算能力,实现从对象存储到向量数据库的全流程优化。在该链路中,读取数据后,高效完成数据的切分(chunk)和向量化处理,并最终将向量数据批量入库至向量数据库。
同时,LAS 提供有 Chunk 和 Embedding 的算子,平台产品界面中,有对算子进行详细和介绍,便于用户快速搭建该链路。
整个离线入库链路:

操作步骤
前期准备
- 在 LAS 平台中提供有 CPU 和 GPU 的计算资源队列。由于 Embedding 消耗的算力较大,建议采用 GPU 计算资源。
- LAS 平台提供将直接将向量数据如下火山引擎的 VikingDB 向量数据库,您可以选择该向量库作为输出端。
搭建 RAG 离线入库链路
- 在 LAS 平台中,工作流菜单中选择创建工作流模版,找到文本 chunk 切分算子拖拽到画布中,然后在画布中添加文本 embedding 算子,如图所示:
- 点击输入节点,配置需要检索的数据来源。
- 点击文本 chunk 切分算子,配置需要切片的字段信息。
- 点击文本 embedding 算子,配置需要向量化的字段信息。
- 点击输出节点,配置向量数据库地址。
- 最后配置需要的 GPU 资源,点击立即运行,这样任务便可以启动了。
查看任务执行日志和状态
LAS 平台具有查看工作流运行情况的功能。用户可以在任务管理中查看工作流的运行状态等信息。