You need to enable JavaScript to run this app.
导航
导入文档
最近更新时间:2024.11.13 11:23:07首次发布时间:2024.05.11 11:57:51

本节将说明如何向已创建的知识库中导入文档。

操作步骤
  1. 在知识库列表,点击知识库卡片中的【导入文档】,或进入知识库详情页面后点击【导入文档】

图片

图片

  1. 在【导入文档】页面中填写相关参数,具体参数如下。

图片
导入方式:支持本地上传、从 TOS 中导入、公开下载链接、从飞书文档导入。

  • 本地上传:
    • 直接上传本地文件到知识库,系统会默认生成 doc_id,因此分多次导入重名文档时都会保留,如需更新文档,请删除该旧文档后重新导入,或参照下文通过 url 方式导入,指定要更新文档的 doc_id,新文档会覆盖旧文档
  • 从 TOS 中导入:
    • 需要先进行跨服务授权, 否则无法获取到当前账号下 TOS 中的文档信息
    • 直接选择 TOS 路径(注:当前仅支持华北区域)。
    • 注意:
      • 该目录下的文件可以在 TOS 上完成 doc_id 的定义,没有 doc_id 的文档将会由系统自动生成 doc_id。注意 doc_id 只能使用英文字母、数字、下划线_,并以英文字母开头,长度要求:[1, 128]。在 TOS 上有两种定义doc_id 的方式:1)通过文档的【修改元数据信息操作】,添加字段选择 x-tos-meta,配置 doc_id 的值。2)使用接口批量定义,见SetObjectMeta
      • 导入目录下的文档是一次性的,后续目录下的文档变更不会被自动同步到知识库
      • 目录下文档的 doc_id 不能重复,如果有重复,仅会覆盖并保留最后上传的文档
      • 如果想对目录下文件内容进行变更,有以下两种方式:1) 通过 url 方式导入,并指定为要替换文档的 doc_id(相对比较快);2) 通过 TOS 方式导入,这种方式会对目录下所有的文档做变更检查,并将新文档替换旧文档。由于需要做文件校验,这种方式耗时较长
      • 不符合格式要求的文档将会被忽略不会被导入知识库
      • 导入目录时只会扫描目录下的文件,而不会递归查看子目录

图片

  • 公开下载链接,需要填写的参数如下:
    • 下载链接:本次导入文档的链接地址
    • 文档 ID:即 文档的 doc_id
    • 文档名称:以格式结尾,如“文档名称.pdf”

图片

  • 通过飞书文档导入
    • 第一次使用需要按照引导先安装【火山方舟知识库】应用,否则无法获取飞书下的文档信息,安装应用有两种方式,

      • 一种是飞书企业管理员进行授权安装,搜索【火山方舟知识库】应用然后授权安装
      • 另一种是普通飞书用户安装,搜索【火山方舟知识库】应用申请安装,有飞书企业管理员进行审批
    • 应用安装完成后,用户在知识库绑定账号开始上传文档

    • 支持选择飞书文档/文件夹/知识库,或者通过URL添加

      注意

      飞书企业管理员在飞书管理后台工作台的应用管理模块下选择【火山方舟知识库】可配置应用的可用范围及禁止哪些成员使用等。

    • 若要解除绑定知识库,点击按钮,退出账号即可

    • 注意:
      • 第一次使用需在飞书应用授权管理开通火山方舟知识库授权

      • 用户有下载权限的文档才能支持导入

      • 导入的文档是一次性的,后续文档变更不会被自动同步到知识库

支持文档格式说明

知识库支持结构化和非结构化两大类文档

非结构化文档

结构化文档

文档类型

规格

文档类型

规格

pdf

100 MB, 2000 页

jsonl

30000 行

doc

100 MB

csv

50 sheet, 30000 行

docx

100 MB

xlsx

50 sheet, 30000 行

pptx

100 MB

markdown

5 MB

txt

5 MB

faq.xlsx

50 sheet, 30000 行

【对于 faq 特殊格式的说明】

  1. 上传文档时,需要通过特殊的后缀 .faq 进行标识,格式为:文档名.faq.xlsx;文档固定格式为一列问题、一列答案,示例:Q&A问答对示例
  2. 解析限制说明:对于问题或答案为空的行会跳过不做处理。

文档同步说明

文档内容更新如何同步到知识库

目前知识库文档的更新需要用户再次上传目标文档,利用相同的 doc_id 实现对原文档的覆盖更新。
对于更新的文档同步到知识库的具体操作,可参考以下说明:

  • 通过界面上传

利用公开下载链接,指定新文档的文件 ID 为需要替换掉的原文档 ID,即可实现文件覆盖更新。
图片

  • 通过 API 或 SDK 上传

使用 /api/knowledge/doc/add 接口上传文档时,指定 doc_id 为需要替换的文档 ID,即可实现文档和切片内容的覆盖。
需要注意的是,"add_type" == "tos" 时,该字段无效,需参考 TOS 上完成 doc_id 的定义 。

文件夹下增量文档更新如何同步到知识库

目前知识库仅支持【从 TOS 中导入】实现增量文档更新。
当已导入的 TOS 目录下有新文件存在,再次导入该目录,知识库会自动根据是否已有同名文档进行判断,并将未导入的文档上传到知识库中。同名的重复文档则会自动跳过,不会再次上传知识库。
对于增量文档更新的具体操作,可参考以下说明:
【方式一】通过界面操作
在导入文档页面选择从 TOS 中导入,再次导入同一个目录。
【方式二】通过 API 操作
通过文档上传接口,add_type 选择 tos ,tos_path 填写同一个目录路径。