云搜索服务提供搜索管理功能,用于统一维护同义词、IK 分词,以及类目预测。本文为您介绍分词配置中的文件管理相关操作。
背景信息
您在上传 IK 分词文件、冷热更新文件、使用 IK 分词能力前,请先了解以下基础信息:
词典文件类型
- 主分词词典:如果创建索引时使用了 IK 分词,写入的数据如果包含了主分词词典中的词,那么会创建索引,且能通过关键词搜索该索引。
- 停用词词典:如果创建索引时使用了IK 分词,写入的数据如果包含了停用词词典的词,该词会被过滤。
系统默认提供一个主分词词典文件(SYSTEM_MAIN.dic)和一个停用词词典文件(SYSTEM_STOPWORD.dic);通过可视化配置的分词词条完成一键生效后,生成的主分词词典文件为SYSTEM_DICTIONARY_MAIN.dic
,停用词词典文件为SYSTEM_DICTIONARY_STOPWORD.dic
,支持下载词典文件到本地查看文件内容。
- 系统默认提供的主分词和停用词词典文件不支持热更新,仅支持冷更新。如果需要更新默认词典库,您可以选择上传同名文件,然后直接冷更新文件,这样便能更新默认词典库内容。
- 通过可视化配置的分词词条完成一键生效生成的词典文件均不支持冷热更新,您只能从可视化配置页面编辑词条然后重新生效,这样便可更新词典内容。
- 上传的自定义主分词和停用词词典文件支持启用和热更新。新上传的词典文件,需要启用才可生效;热更新则用于更新已启用的词典文件内容。
词典文件限制
您在上传 IK 分词词典文件时,应注意以下内容:
- 仅支持上传
utf-8
编码的 .dic
文件。 - 一行只能写一个词。
- 单次最多上传 10 个文件,且单个文件最大为 5MiB。
- 上传新的词典文件时,不支持上传同名文件;冷热更新词典文件时,必须上传同名文件。
- 文件名称只能由大小写字母、数字和 3 个特殊符号(
-_.
)组成。
词典文件生效说明
- 词典文件更新操作(添加、编辑和删除)完成后,将对使用 IK 分词的存量、新增索引生效,文件更新后约两分钟才可实际生效。其中存量索引仅新增数据生效,如果您希望对存量索引存量数据生效,可使用数据刷新功能刷新索引数据。相关文档,请参见执行数据刷新。
- 每个节点获取词典文件的时间可能不同,请耐心等待词典生效,大概两分钟后再使用更新之后的词典。
生效方式 | 描述 | 字典文件类型 | 是否重启实例 |
---|
启用 | 首次上传的自定义词典文件,需要启用才可生效。 | 自定义词典文件 | 否 |
热更新 | 当您需要更新已启用的词典文件内容时,您可以下载已启用的词典文件,在本地更新文件内容后,然后进行热更新操作。 | 自定义词典文件 | 否 |
冷更新 | 系统提供的默认主分词和停用词词典文件不支持热更新,仅支持冷更新。
如果需要更新默认词典库文件,您可以选择上传同名文件,然后冷更新词典文件,这样便能更新默认词典库内容。冷更新词典文件,需要滚动重启实例才可生效。 | 系统词典文件 | 是 |
上传词典文件
- 登录云搜索服务控制台。
- 在顶部导航栏,选择目标项目和地域。
- 在实例列表 v2页面,单击目标实例名称。
- 在实例详情的左侧导航栏选择搜索管理 > 分词管理。
- 单击文件管理页签,然后单击新增文件。
- 在新增文件对话框,选择文件类型及需要上传的文件,上传完成后,单击关闭。
- 在弹出的对话框中,选择文件是否立即生效。
- 需要立即启用:单击启用,即自动开始启用词典文件并生效。
- 不需要立即启用:单击取消,文件会保存在文件列表中,不会生效。
启用文件
首次上传的自定义词典文件需要启用后才可生效。
- 在实例列表 v2页面,单击目标实例名称。
- 在实例详情的左侧导航栏选择搜索管理 > 分词管理。
- 单击文件管理页签,然后查询并选择
待启用
状态的词典文件,再单击启用。 - 在启用文件对话框,单击启用。
热更新文件
当您需要更新已启用的自定义词典文件内容时,您可以下载已启用的词典文件,在本地更新文件内容后,然后进行热启用操作。热更新词典文件不会触发实例重启,而是在运行过程中加载分词词库。
说明
- 系统默认提供的主分词和停用词词典文件不支持热更新。如果需要更新默认词典库,您可以选择上传同名文件,然后冷更新词典文件,这样便能更新默认词典库内容。
- 通过可视化配置的分词词条完成一键生效生成的词典文件均不支持冷热更新,您只能从可视化配置页面编辑词条,然后重新执行一键生效操作。
- 在实例列表 v2页面,单击目标实例名称。
- 在实例详情的左侧导航栏选择搜索管理 > 分词管理。
- 单击文件管理页签,然后查询并选择需要更新的自定义词典文件,再单击热更新。
- 在热更新文件对话框,上传在本地已更新的同名文件,然后单击关闭。
- 在弹出的提示框中,单击确定。
冷更新系统分词文件
系统默认提供的主分词和停用词词典文件不支持热更新,仅支持冷更新。如果需要更新默认词典库,您可以选择上传同名文件,然后冷更新词典文件,这样便能更新默认词典库内容。
说明
- 冷更新系统提供的默认主分词和停用词词典文件,需要滚动重启实例才可生效。
- 请谨慎修改 IK 默认词典文件,如仅需添加自定义词条,建议通过可视化配置和上传文件的方式。
- 在实例列表 v2页面,单击目标实例名称。
- 在实例详情的左侧导航栏选择搜索管理 > 分词管理。
- 单击文件管理页签,然后选择系统默认提供的主分词或停用词词典文件,再单击冷更新。
- 在冷更新文件对话框,查看注意事项,然后上传本地已更新的词典文件,再单击关闭。
- 在弹出的提示框中,单击确定。
下载文件
支持下载分词词典文件,可以用来查看分词词条详情,也可以用来更新词典文件中的词条内容。
- 在实例列表 v2页面,单击目标实例名称。
- 在实例详情的左侧导航栏选择搜索管理 > 分词管理。
- 单击文件管理页签,然后选择目标词典文件,再单击操作列对应的下载,即可将词典文件下载至本地。
删除文件
自定义词典文件支持删除操作,请谨慎执行删除分词词典文件的操作。
说明
删除分词词典文件,请先了解以下事项:
- 请确保删除文件所包含的词条目前没有索引在使用,否则会导致集群状态异常,如果要更新词条请使用热更新。
- 删除词典文件后,该操作仅对之后新建的索引生效。如果要对存量索引的历史数据生效,需要刷新索引数据,请参见执行数据刷新。
- 在实例列表 v2页面,单击目标实例名称。
- 在实例详情的左侧导航栏选择搜索管理 > 分词管理。
- 单击文件管理页签,然后选择目标词典文件,再单击目标文件操作列对应的删除。
- 在弹出的对话框中,查看注意事项并确认需要删除的词典文件,然后单击删除。