日志服务支持 TOS 数据导入功能,支持将 TOS 中存储的数据进行结构化,并保存在日志服务中。本文档介绍从 TOS 中导入数据到日志服务的操作步骤。
在海量日志文件批量导入场景中,您可以将日志文件上传至对象存储 TOS 的桶中,并通过日志服务的日志导入功能将其结构化、导入并保存在日志服务中,实现日志数据的实时查询分析、二次加工处理。从 TOS 中导入数据时,支持将指定 Bucket 中的一个或多个对象中的数据全量导入到日志服务中,支持跨地域导入,即日志服务日志主题和数据源 Bucket 可以位于不同地域。创建导入任务后还可以在日志服务控制台中查看导入进度及状态信息,或通过服务日志分析查看进度和状态的详细数据。
此外,日志服务还会为导入的日志数据添加以下元数据字段。
字段 | 说明 |
---|---|
| 原始日志数据。仅在日志提取类型为单行全文时添加。 |
| 日志的源文件目录与文件名。 |
| 日志源所属存储桶的名称。 |
从 TOS 导入数据功能的限制项如下:
限制 | 说明 |
---|---|
导入性能 | TOS 数据导入任务支持的最大处理速度为 80 MB/s。如果您需要提升任务处理速度,请通过工单系统沟通业务需求。 |
数据导入配置数量 | 单个日志项目中,最多可创建 100 个不同类型的数据导入配置。 |
单个文件大小 | 不同压缩模式下,文件大小限制不同。超过限制的文件不会被导入到日志服务中。
|
单条数据大小 | 单条日志最大长度为 512KiB,超出的日志会被截断丢弃;如果单条日志长度超过 2MiB,该条日志会被直接丢弃。 |
导入数据范围 | 仅支持全量导入,不支持增量导入。
|
桶类型 | 不支持低频存储类型的存储桶数据导入。 |
修改导入任务 | 创建日志导入任务后,不可修改任务的数据源配置等。如果配置错误,请删除配置后重新创建。 |
从 TOS 导入数据涉及日志服务和对象存储的读流量、写流量等计费项。具体的价格信息请参考日志服务计费项和对象存储计费概述。
收费侧 | 计费项 | 说明 |
---|---|---|
对象存储 | 私网流出流量 | 从 TOS 读取数据时走火山引擎私网,会产生私网流出流量。 |
请求次数 | 从 TOS 读取数据时,根据不同存储类型的请求次数进行计费。 | |
日志服务 | 写流量 | TOS 数据写入到日志服务中,在日志服务中涉及写流量费用。流量费用根据压缩后的数据量进行计费。 |
日志存储 | 日志保存到日志服务后,后端会自动对其进行压缩,存储费用以压缩后的实际大小为准。 | |
其他 |
|
登录日志服务控制台。
在顶部导航栏中,选择日志服务所在的地域。
在左侧导航栏中,选择常用功能 > 日志接入。
在数据导入页签下,单击火山引擎对象存储TOS。
选择日志空间。
配置 | 说明 |
---|---|
日志项目 | 用于存储 TOS 数据的日志项目名称。 |
日志主题名称 | 用于存储 TOS 数据的日志主题名称。 说明 云产品日志、服务日志等日志的专属日志主题不支持导入数据。 |
单击下一步:配置导入规则。
填写任务名称。
配置 | 说明 |
---|---|
任务名称 | 日志导入任务的名称。 |
配置数据源。
配置 | 说明 |
---|---|
存储桶所在地域 | TOS 存储桶所在的地域。支持跨地域导入数据。 |
桶所属IAM项目 | TOS 存储桶所属 IAM 项目。 |
存储桶 | 日志文件所在的 TOS 存储桶。 |
选择文件路径 | 待导入的文件在 TOS 存储桶中的路径。
说明
|
压缩模式 | TOS 存储桶中数据的压缩模式,日志服务支持导入以下压缩模式的数据。
说明 设置为 lz4 前,应确认数据源使用 LZ4Frame 压缩,否则可能导致导入时解压失败。 |
配置导入方式。
配置 | 说明 |
---|---|
日志提取类型 | 日志服务解析日志字段的方式,支持设置为单行全文、JSON 或 CSV。
|
上传解析失败日志 | 是否上传解析失败的日志,默认为开启状态。
|
时间字段 | 是否使用指定字段的值作为日志时间。默认情况下,日志服务采用数据导入时的系统时间作为日志时间。您也可以指定时间字段,日志服务会使用该字段值作为日志时间。相关配置如下:
|
日志提取类型设置为 CSV 时,还需要额外设置以下参数:
参数 | 说明 |
---|---|
分隔符 | 日志数据中,不同字段之间的分隔符。根据日志格式选择正确的分隔符,确保每个字段都能被准确提取。日志服务支持配置多种常见的分隔符,例如空格、逗号等。 说明
|
引用符 | 如果日志字段值中包含分隔符,则需要在日志中使用指定的引用符包裹整个字段值,否则日志内容将会被分隔符误拆分。指定分隔符和引用符之后,被引用符中包裹的内容会被日志服务解析为一个完整的字段。
引用符支持设置为不配置、半角单引号、半角双引号或自定义字符。如果选择自定义字符,则需要设置自定义引用符。 说明
|
字段名称 | 日志服务根据指定的分隔符解析并提取日志内容后,您需要为各个日志内容指定不同的字段名。支持如下两种配置方式:
|
跳过行数 | 设置跳过的日志行数。例如设置为 1,则导入日志时,将从 CSV 文件的第 2 行开始导入。 |
单击执行预览,预览待导入的文件内容。
配置导入规则后,日志服务提供指定数据源的数据预览功能,您可以查看预览区域中的数据是否与待导入的数据相同。如果数据不同,表示数据源配置不正确,建议重新设置。
单击下一步:检查索引配置。
成功创建 TOS 数据导入任务之后,您可以在日志服务控制台中查看相关信息,包括导入配置的配置详情及数据导入的进度数据。
导入任务信息页签中展示导入任务的状态及进度信息,详细说明如下:
展示项 | 说明 |
---|---|
导入任务状态 | 当前导入任务的状态,详细状态说明请参考下表。 |
导入进度 | 当前任务的导入进度,计算方式为 |
总资源个数 | 日志服务检测到的 TOS 存储桶中符合过导入规则的文件数量。 |
已导入资源个数 | 日志服务已导入的文件数量。 |
已列举到资源大小 | 日志服务检测到的 TOS 存储桶中符合过导入规则的文件大小,单位为 GiB。 |
已导入的资源大小 | 日志服务已导入的文件大小,单位为 GiB。 |
不存在资源个数 | 因导入过程中文件删除等原因,导致日志服务未能查找到的文件数量。 |
跳过导入资源个数 | 因资源类型不匹配、文件无法解压或读取等问题,日志服务直接跳过、未导入的文件数量。 |
失败资源个数 | 日志服务导入失败的文件数量。 |
导入任务状态说明如下:
状态 | 说明 |
---|---|
导入中 | 导入任务执行中。您可以通过导入进度判断当前的任务执行进度。 |
导入完成 | 导入任务已执行完毕。符合导入规则的所有可导入文件已被成功导入到日志服务的指定日志主题中。 |
导入异常 | 导入任务异常。任一文件导入失败都会导致整个任务的异常状态,例如文件解压方式错误、数据异常等原因引起的文件导入失败。建议处理异常问题之后,重新导入问题文件。 |
如果数据导入任务遇到了故障或异常,您可以删除故障的导入任务,重新导入数据。如果已完成存量日志数据的迁移,或者不再需要导入日志到火山引擎日志服务,您可以参考以下步骤删除日志导入任务。
说明