LogCollector 根据采集配置采集服务器上的文本日志，并支持以单行全文模式解析日志，即不对日志内容进行结构化处理。本文介绍创建单行全文模式采集配置的操作步骤。 ## 背景信息单行文本日志表示一行日志即为一条日志，换行符（`\n`）为一条日志结束的标识符。如果无需对日志内容进行结构化处理、无需提取日志字段进行精细化分析查询，建议使用单行全文模式。单行全文模式下，日志服务会在 LogCollector 采集到的日志数据中增加以下元数据字段。 |预留字段 |说明 | |---|---| |`__content__` |该字段封装了原始日志内容。该字段未预置索引，若需检索日志，需要手动开启全文索引。 | |`__path__` |原始日志文件目录及文件名。日志服务已为该字段创建索引。 | |`__source__` |原始日志所在服务器的 IP 地址。日志服务已为该字段创建索引。 | ## 日志样例常见的单行日志样例如下： ```Plain Text 10: URL_REQUEST https://clientservices.googleapis.com/chrome-variations/seed?osname=win&channel=stable&milestone=86 Start Time: 2020-10-19 12:27:35.822 ``` 通过单行全文模式采集以上单行日志时，日志服务会对日志全文进行字段封装，最终保存在日志服务中的日志数据为： ```Plain Text __content__:10: URL_REQUEST https://clientservices.googleapis.com/chrome-variations/seed?osname=win&channel=stable&milestone=86 Start Time: 2020-10-19 12:27:35.822 __path__:net/log/net_log_event.log __source__:172.30.07.** ``` ## 前提条件 * 已创建日志项目和日志主题。详细操作步骤请参考[创建日志项目](https://www.volcengine.com/docs/6470/72005)和[创建日志主题](https://www.volcengine.com/docs/6470/72004)。 * 已创建机器组，并确认机器组的服务器心跳状态正常。详细操作步骤请参考[创建机器组（IP 地址）](https://www.volcengine.com/docs/6470/93978)或[创建机器组（机器标识）](https://www.volcengine.com/docs/6470/107375)。 * 安装 LogCollector 的服务器需具备访问远端服务器 80 端口和 443 端口的能力。 * 已在原始日志所在的服务器上安装最新版本的 LogCollector。详细步骤请参考[安装 LogCollector](https://www.volcengine.com/docs/6470/72007)。 ## 操作步骤 ### 步骤一选择日志空间 1. 登录[日志服务控制台](https://console.volcengine.com/tls)。 2. 在顶部导航栏中，选择日志服务所在的地域。 3. 在左侧导航栏中，选择**常用功能** \> **日志接入**。 4. 在**日志接入**页面的 **LogCollector日志采集**页签中，单击**创建采集配置**。

说明

以下地域需在 LogCollector日志采集页签中，手动选择日志采集模式。

地域：中国香港、亚太东南（柔佛）、亚太东南（雅加达）。

5. 选择**日志项目**和**日志主题**，单击**下一步：选择机器组**。采集到的日志数据将被存储到该日志主题中。 ### 步骤二选择机器组 1. 在**全部机器组**区域中，选择需要被采集日志的机器组。如果列表中无可用的机器组，您需要先创建机器组。具体操作，请参考[创建机器组（机器标识）](https://www.volcengine.com/docs/6470/107375)、[创建机器组（IP地址）](https://www.volcengine.com/docs/6470/93978) 2. 在**已选机器组**区域中确认机器组无误后，单击**下一步：采集规则**。 ### 步骤三配置采集规则 #### 配置基础信息 1. 填写**规则名称**。 **规则名称**即 LogCollector 采集配置的名称。您也可以单击**导入其他采集配置**，选择**日志Region**、**日志项目**和**采集配置**，将已创建的采集配置导入到当前配置中，您只需要指定采集规则名称即可。 2. 选择是否启用**容器日志采集**。采集宿主机日志及 Sidecar 方式采集容器日志时，此配置应维持默认的关闭状态。 3. 填写**采集路径**。 **采集路径**即日志所在的目录和文件名，LogCollector 会按照采集路径中的目录部分匹配符合规则的目录，监听这些目录下符合规则的日志文件。最多设置 10 个不同的采集路径。采集路径可以指定完整的目录和文件名，也可以通过通配符模糊匹配。

说明

默认情况下，一个日志文件只能匹配一个采集配置，被采集到一个日志主题中。如果多个采集配置重复采集同一个文件，则以最新创建的采集配置规则为准。

日志采集路径中指定通配符**时，表示多层目录匹配，仅在此时，日志服务才会监听指定目录下深至8级的子目录。

日志服务目前支持的通配符包括星号*、双星号**和半角问号?。双星号**最多只能配置一个。

常见的采集路径的配置方式及示例如下。 |配置方式 |日志路径示例 |说明 | |---|---|---| |完整文件名称 |`/var/log/access.log` |指定完整的目录和文件名，不包含通配符，表示监听指定目录下的指定文件，不监听其子目录。

例如，左侧示例表示监听 `/var/log` 目录下名为 `access.log` 的日志文件。 | |文件名模糊匹配 |`/var/log/*.log` |不指定文件名，表示监听所有日志文件；指定部分文件名规则，表示监听符合规则的部分文件。

例如，左侧示例表示监听 `/var/log` 目录下，文件格式为 `.log` 的日志文件。 | |路径模糊匹配 |`/var/log/**/access.log`

`/var/log/*/access.log`

`/var/log/**` |通过`*`模糊匹配路径时，仅监听一级目录中的日志文件；通过`**`模糊匹配路径时，表示监听一级及其子目录下的日志文件，目录深度最大为 8。

例如：

* `/var/log/**/access.log` 表示监听 `/var/log` 目录及其子目录下名为 `access.log` 的日志文件，目录深度最大为 8。

* `/var/log/**`表示监听 `/var/log` 目录及其子目录下所有的日志文件，目录深度最大为 8。 | 4. 设置采集配置生效策略。当同一采集路径中的日志文件被多个采集配置匹配时，可设置如下策略： |配置 |说明 | |---|---| |可被新配置覆盖 |存在更新的采集配置时，日志文件不会按当前配置采集，将会按最新的采集配置采集。 | |永久生效 |即使存在更新的采集配置，日志文件也将按当前配置重复采集。

**永久生效**仅对 LogCollector 2.1.0 及以后版本生效，可能会产生重复采集费用，详情可参考[文件日志或标准输出同时被采集多份](https://www.volcengine.com/docs/6470/1340574)。 | 5. 设置**采集路径黑名单**。配置采集路径黑名单之后，日志服务通过 LogCollector 采集日志时，会忽略指定的目录和文件。选择**启用**后，请根据页面提示设置黑名单目录和文件。

说明

每个采集配置中最多设置 10 条采集路径黑名单。

如果您在配置日志路径时使用了通配符，但又需要过滤掉其中部分目录或文件时，需要在黑名单中填写对应的完整路径或文件名来保证过滤生效。例如采集路径为/var/log/project/*.log，需要过滤其中/var/log/project目录下的所有子目录，则采集路径黑名单应设置为目录路径，配置路径为/var/log/project/**。

采集路径黑名单中的路径类型支持设置为**目录路径**和**文件路径**。 |配置 |说明 | |---|---| |目录路径 |采集时忽略指定的目录。目录路径支持完整匹配和通配符模式匹配。

* 完整匹配：指定完整的目录名称，例如 `/var/log/mydata/new`。

* 通配符匹配：目录中包含通配符，支持的通配符包括星号（`*`）和半角问号（`?`）。例如 `/var/log/mydata/n*` 表示不采集目录 `/var/log/mydata/` 下以 n 开头的目录。 | |文件路径 |采集时忽略指定的文件，需配置文件路径及文件名。文件路径支持完整匹配和通配符模式匹配。

* 完整匹配：指定完整的路径及文件名称，例如 `/var/log/mydata/access.log`。

* 通配符匹配：路径及文件名中包含通配符，支持的通配符包括星号（`*`）半角问号（`?`）和双星号（`**`）。通配符中，双星号（`**`）最多只能配置一个。例如 `/data/nginx/log/*/*/access.log` 表示不采集目录 `/data/nginx/log` 及其一级和二级目录中名为 `access.log` 的日志文件。 | ![图片](https://lf6-volc-editor.volccdn.com/obj/volcfe/sop-public/upload_c9cade99c77b6613ddfabc7a70ae9bba.png) #### 配置日志格式 1. 设置**采集策略**。采集策略表示 LogCollector 采集增量日志还是全量日志。默认为增量日志。 |配置 |说明 | |---|---| |全量 |* 首次采集的日志文件：从每个文件的起始位置开始采集日志，包含历史日志数据。

* 非首次采集的日志文件：根据 Checkpoint 确定采集位置往后继续采集，不包含历史日志数据。 | |增量 |只采集文件内新增的内容。监控范围内的日志文件写入新的日志时，触发 LogCollector 日志采集行为。

* 首次采集的日志文件：根据您输入的增量阈值，自动确认采集的位置。

* 如果新文件大小不超过您所指定的增量阈值，从新文件的起始位置开始首次采集。

* 如果新文件大小超过您所指定的增量阈值，从新文件的末尾减去增量阈值后的位置开始首次采集，即仅采集增量日志。

* 非首次采集的日志文件：根据 Checkpoint 确定采集位置往后继续采集。 |

说明

如果采集策略设置为增量，触发 LogCollector 日志采集行为后，不支持通过修改采集策略为全量，来采集该文件的历史日志数据。

如果需要采集该文件完整日志数据，可参考文件日志或标准输出同时被采集多份设置多个采集规则。

2. 设置**采集模式**。 **采集模式**即 LogCollector 解析日志文件的模式，此处请配置为**单行全文**模式。 * 手动配置：单击**单行全文**。 * 自动配置：单击 **AI 推荐采集模式**，输入或上传日志样例，日志服务将使用 TLS Copilot 对日志样例进行自动分析，分析完成后可根据提示一键填入相关配置。推荐结果仅做参考，请以实际为准。

说明

首次使用 TLS Copilot 需阅读并同意免责声明和服务使用规则。

TLS Copilot 仅支持华北2（北京）、华南1（广州）和华东2（上海）地域。

在单行全文模式下，以 `\n` 作为一条日志的结束符，每行日志都会被封装到字段 `__content__` 中。原始日志本身不再进行结构化处理。 3. 设置**时间字段**。 * **采集时间点**：将采集日志时 LogCollector 所在服务器的系统时间作为日志时间戳。 * **自定义时间**：提取原始日志中自带的时间作为日志时间戳。相关配置如下： |配置 |说明 | |---|---| |时间键名称 |填写时间字段的名称。可填写`__content__`或通过插件指定的时间字段。

* 填写`__content__`：需要指定**时间正则**，提取原始日志中自带的时间字段。

* 填写通过插件指定的时间字段：需要启动**插件配置**，提取日志中的时间并指定时间字段。 | |时间正则 |如果您只解析时间字段中的部分内容，可使用正则表达式进行提取。 | |时间精度 |勾选**启用纳秒时间精度**后，支持提取纳秒精度的时间。详细说明，请参考[启用 LogCollector 高精度时间](https://www.volcengine.com/docs/6470/1285312)。 | |时间转换格式 |根据提取到的时间内容，设置时间转换格式。例如时间为`01/March/2024 20:15:02`，则可配置**时间转换格式**为`%d/%b/%Y:%H:%M:%S`。详细的格式说明请参考[时间格式](https://www.volcengine.com/docs/6470/111835)。

说明

如果时间转换格式填写错误导致无法正确解析时间，将以采集时间为准。

默认情况下，日志时间支持精确到毫秒，即配置时间转换格式时，支持配置到毫秒。如果时间转换格式中未指定毫秒级的解析方式，则毫秒部分会自动填充为 0。

在采集配置中勾选启用纳秒时间精度后，日志转换格式支持到纳秒级别。

如果您需要在日志时间中添加时区且原始日志时间包含时区，那么您可以在时间转换格式中添加时区格式（%z）以提取时区。另外，您也可以在时间转换格式中添加固定时区格式（+08:00），然后选择合适的时区属性。

例如时间为2024-03-03 15:00:00 +08:00，您可以设置时间转换格式为%Y-%m-%d %H:%M:%S %z，或者设置时间转换格式为%Y-%m-%d %H:%M:%S +08:00且选择对应的时区属性。

| |时区属性 |设置时区。

* 机器时区：使用 LogCollector 所在服务器的系统时区。

* 自定义时区：包括 UTC 和 GMT。如果要支持夏令时或冬令时，请选择 UTC；否则，请选择 GMT。 | |时间字段样例 |输入原始日志中的时间内容，单击**立即验证**，日志服务将验证您所配置的**时间转换格式**是否正确。

![图片](https://p9-arcosite.byteimg.com/obj/tos-cn-i-goo7wpa0wc/c4ccebee5c7247b49e3cac65fffa622a)

| 4. 选择是否忽略未更新文件。开启后，当日志文件更新时间不在您所指定的时间范围内时，LogCollector 会忽略该文件，不进行采集。 5. 设置是否启用上传解析失败日志。 * 启用：启用后需同时配置**失败日志键名称**，默认为 `LogParseFailed`。所有解析失败的日志，均以配置的失败日志键名称字段作为键名称（Key），原始日志内容作为值（Value）上传到日志服务。 * 不启用：解析失败的日志不上传到日志服务。 #### 配置插件选择是否启用**插件配置**。通过 LogCollector 采集文本日志时，如果业务日志结构复杂、格式不固定，无法通过 JSON 模式等常规的日志采集模式进行解析时，可以通过 LogCollector 插件进行采集后处理。详细说明请参考[插件概述](https://www.volcengine.com/docs/6470/147805)。 #### 高级设置 1. 启用**高级设置**。请根据您的需求选择高级配置。如果没有特殊需求，建议保持默认配置。 |配置 |说明 | |---|---| |过滤器 |是否开启日志字段过滤规则。默认为关闭状态。开启后，通过正则表达式配置过滤规则，完全匹配正则表达式的日志才会被采集上报，帮助您筛选出有价值的日志数据。

![图片](https://lf3-volc-editor.volccdn.com/obj/volcfe/sop-public/upload_745915faf02c14fb5268e3b934af19ce.png) | |上传hostname字段 |是否上传 hostname 字段，默认为关闭状态。

* 开启：在原始日志中增加一个字段，用于记录日志源的 hostname。字段名可以通过 **hostname键名称**指定，默认为 `hostname`。

* 关闭：不添加 `hostname` 字段。

| |解析采集路径 |通过正则表达式提取采集路径中的字段，并将其作为元数据添加到日志数据中。此功能默认为关闭状态。

开启此功能后，您需要设置采集路径样例、提取正则表达式和提取结果。

* 采集路径样例：实际场景的采集路径样例。

* 采集路径样例必须是一个绝对路径。

* 路径样例中不能包含通配符`*`、`?`、`**`。

* 提取正则表达式：用于提取路径字段的正则表达式。必须和采集路径样例匹配，否则无法成功提取。

* 提取结果：**提取结果**中展示日志服务根据正则表达式将路径样例解析并提取到的每个字段值（Value）。您需要为每个字段指定字段名称（Key）。

* 最多配置 100 个字段名。

* 字段名不可为空，且不可重复。

![图片](https://p9-arcosite.byteimg.com/obj/tos-cn-i-goo7wpa0wc/ddd78e26294248588ee7507675c08c1a)

| |HashKey路由Shard |指定 HashKey 将数据写入到符合范围要求的日志分区。此功能默认为关闭状态。

* 开启此功能，表示使用 HashKey 路由 Shard 模式采集数据，将数据有序写入到指定 Shard 中。适用于数据写入和消费对有序性要求较高的场景。此时需要设置 HashKey，日志服务会将数据写入到包含该 Key 值的 Shard 中。HashKey 的取值范围为 [00000000000000000000000000000000\-ffffffffffffffffffffffffffffffff)。

* 关闭此功能，表示使用负载均衡模式采集数据，自动根据负载均衡原则将数据包写入当前可用的任一 Shard 中。该模式适用于写入和消费行为与 Shard 无关的场景，例如不保序。

![图片](https://lf3-volc-editor.volccdn.com/obj/volcfe/sop-public/upload_bf58707bad0705a19a0bc352f3b757ad.png) | |上传原始日志 |是否将原始日志作为一个字段上传到日志服务，默认为关闭状态。

* 开启：原始的日志数据将被封装在指定字段中，和解析后的日志数据一起上传到日志服务中。字段名可以通过**原始日志键名称**指定，默认值为 `raw`，实际对应的日志字段为 `__raw__`。

* 关闭：不添加原始日志字段。

![图片](https://p9-arcosite.byteimg.com/obj/tos-cn-i-goo7wpa0wc/ab724fa0051b4f728511c95ff978e4ba)

| |上传常量字段 |开启后，LogCollector 会将指定字段的 Key 和 Value 封装到每一条日志中。常量字段需遵循以下限制：

* 支持上传最多 5 个常量字段。

* 字段名（Key）不可重复，不可为空。长度限制为 1~128 字符，包括英文字母、数字、和特殊字符（`-_./`），且不能以下划线开头。

* 字段值（Value）不可为空，长度最大为 512 KiB。

![图片](https://portal.volccdn.com/obj/volcfe/cloud-universal-doc/upload_6a298f2f110d38dd890395a8cb2038fc.png) | |上传机器组 Label |是否将机器组的 Label 信息上传到日志服务，默认为关闭状态。

* 开启：LogCollector 会将机器组的 Label 信息上传到指定字段中。您可以在**机器组Label键名称**中指定字段名称，默认值为`host_group_label`。

* 关闭：不上传机器组 Label 信息。

![图片](https://p9-arcosite.byteimg.com/obj/tos-cn-i-goo7wpa0wc/5de7237cd75541c88d9a7d6f98ed56ff) | |扩展配置 |LogCollector 扩展配置，JSON 对象格式。目前支持的参数包括 CloseInactive、CloseRemoved、CloseRenamed、CloseEOF 和 CloseTimeout。详细的参数说明请参考[CreateRule](https://www.volcengine.com/docs/6470/112199)中的数据结构Advanced。

例如填写以下配置，表示日志文件持续 10 秒没有新日志写入、日志文件被移除或重命名、LogCollector 读取至文件末尾、日志文件监控时长超过 30 分钟后，释放文件句柄。

![图片](https://portal.volccdn.com/obj/volcfe/cloud-universal-doc/upload_57b024fa032cbfce9a319d70b414c547.png) | 2. 确认采集配置，并单击**下一步：检查索引配置**。 ### 步骤四检查索引配置 1. 检查索引配置。根据页面提示，按需设置或更新索引，您也可以单击**导入已有索引配置**，导入其他日志主题的索引。 * 若此日志主题未设置索引，可以参考[配置索引](https://www.volcengine.com/docs/6470/1206703)进行设置。 * 若此日志主题已设置索引，可以根据采集规则中解析的日志字段判断是否需要更新索引。

说明

启用索引后，您才能检索分析采集到的日志数据。

更新后的索引设置仅对后续写入的新数据生效。其他检索分析的使用说明及限制请参考检索概述和分析概述。

2. 单击**提交**。 ## 后续步骤创建采集配置之后，LogCollector 将采集日志并保存至指定的日志主题中，您可以在日志主题中执行检索分析操作。具体操作，请参考[检索分析流程](https://www.volcengine.com/docs/6470/1335024)。