本节将说明如何向已创建的知识库中导入文档。
导入方式:支持本地上传、从 TOS 中导入、公开下载链接、从飞书文档导入。
第一次使用需要按照引导先安装【火山方舟知识库】应用,否则无法获取飞书下的文档信息,安装应用有两种方式,
应用安装完成后,用户在知识库绑定账号开始上传文档
支持选择飞书文档/文件夹/知识库,或者通过URL添加
注意
飞书企业管理员在飞书管理后台工作台的应用管理模块下选择【火山方舟知识库】可配置应用的可用范围及禁止哪些成员使用等。
若要解除绑定知识库,点击按钮,退出账号即可
第一次使用需在飞书应用授权管理开通火山方舟知识库授权
用户有下载权限的文档才能支持导入
导入的文档是一次性的,后续文档变更不会被自动同步到知识库
知识库支持结构化和非结构化两大类文档
非结构化文档 | 结构化文档 | ||
---|---|---|---|
文档类型 | 规格 | 文档类型 | 规格 |
100 MB, 2000 页 | jsonl | 30000 行 | |
doc | 100 MB | csv | 50 sheet, 30000 行 |
docx | 100 MB | xlsx | 50 sheet, 30000 行 |
pptx | 100 MB | ||
markdown | 5 MB | ||
txt | 5 MB | ||
faq.xlsx | 50 sheet, 30000 行 |
【对于 faq 特殊格式的说明】
目前知识库文档的更新需要用户再次上传目标文档,利用相同的 doc_id 实现对原文档的覆盖更新。
对于更新的文档同步到知识库的具体操作,可参考以下说明:
利用公开下载链接,指定新文档的文件 ID 为需要替换掉的原文档 ID,即可实现文件覆盖更新。
使用 /api/knowledge/doc/add 接口上传文档时,指定 doc_id 为需要替换的文档 ID,即可实现文档和切片内容的覆盖。
需要注意的是,"add_type" == "tos" 时,该字段无效,需参考 TOS 上完成 doc_id 的定义 。
目前知识库仅支持【从 TOS 中导入】实现增量文档更新。
当已导入的 TOS 目录下有新文件存在,再次导入该目录,知识库会自动根据是否已有同名文档进行判断,并将未导入的文档上传到知识库中。同名的重复文档则会自动跳过,不会再次上传知识库。
对于增量文档更新的具体操作,可参考以下说明:
【方式一】通过界面操作
在导入文档页面选择从 TOS 中导入,再次导入同一个目录。
【方式二】通过 API 操作
通过文档上传接口,add_type 选择 tos ,tos_path 填写同一个目录路径。