本节将说明如何向已创建的知识库中导入文档。
导入方式 | 说明 |
---|---|
本地上传 | 直接上传本地文件到知识库,系统会默认生成 doc_id,因此分多次导入重名文档时都会保留,如需更新文档,请删除该旧文档后重新导入,或参照下文通过 url 方式导入,指定要更新文档的 doc_id,新文档会覆盖旧文档 |
从 TOS 中导入 |
注意
|
公开下载链接 |
|
从飞书文档导入 |
注意 飞书企业管理员在飞书管理后台工作台的应用管理模块下选择【火山方舟知识库】可配置应用的可用范围及禁止哪些成员使用等。
|
知识库支持结构化和非结构化两大类文档,不同类型文档支持规格请参考:知识库配额说明
非结构化文档 | 结构化文档 | ||
---|---|---|---|
文档类型 | 规格 | 文档类型 | 规格 |
200 MB, 5000 页 | jsonl | 30000 行 | |
doc | 200 MB | csv | 50 sheet, 文件行数总和30000 行 |
docx | 200 MB | xlsx | 50 sheet, 文件行数总和30000 行 |
pptx | 200 MB | ||
markdown | 5 MB | ||
txt | 5 MB | ||
faq.xlsx | 50 sheet, 文件行数总和30000 行 |
说明
**对于 faq 特殊格式的说明:**上传文档时,需要通过特殊的后缀 .faq 进行标识,格式为:文档名.faq.xlsx;文档固定格式为一列问题、一列答案,示例:Q&A问答对示例
解析限制说明:对于问题或答案为空的行会跳过不做处理。
目前知识库文档的更新需要用户再次上传目标文档,利用相同的 doc_id 实现对原文档的覆盖更新。
对于更新的文档同步到知识库的具体操作,可参考以下说明:
利用公开下载链接,指定新文档的文件 ID 为需要替换掉的原文档 ID,即可实现文件覆盖更新。
使用 /api/knowledge/doc/add 接口上传文档时,指定 doc_id 为需要替换的文档 ID,即可实现文档和切片内容的覆盖。
需要注意的是,"add_type" == "tos" 时,该字段无效,需参考 TOS 上完成 doc_id 的定义 。
目前知识库仅支持【从 TOS 中导入】实现增量文档更新。
当已导入的 TOS 目录下有新文件存在,再次导入该目录,知识库会自动根据是否已有同名文档进行判断,并将未导入的文档上传到知识库中。同名的重复文档则会自动跳过,不会再次上传知识库。
对于增量文档更新的具体操作,可参考以下说明:
【方式一】通过界面操作
在导入文档页面选择从 TOS 中导入,再次导入同一个目录。
【方式二】通过 API 操作
通过文档上传接口,add_type 选择 tos ,tos_path 填写同一个目录路径。