监控服务
- 点击「可信运维监控-监控服务」跳转至托管Prometheus进行监控配置。
- 在用户账户下根据使用指引创建新的工作区,可自行选择存储15天/30天的规格。
- 创建完成后,提供工作区Remote Write URL(点击工作区-概览-地址信息)给PCC管理员,进行采集器配置。
- PCC管理员配置完成后,用户可在托管Prometheus-Explore查询监控指标。
- 业务属性,检索LLM相关指标
- 节点属性:node_cpu_seconds_total node_filesystem_files node_load5...
- 容器属性:container_cpu_cfs_periods_total container_cpu_load_average_10s container_fs_inodes_free..
- K8S属性:kubelet_cgroup_manager_duration_seconds_sum kubelet_container_log_filesystem_used_bytes..
- 告警配置
- 添加告警人配置,将飞书告警机器人填写到告警人信息中,将告警人添加到联系人组中。
- 手动创建告警规则(绑定工作区来区分不同集群告警)。
日志服务
- 点击「可信运维监控-日志服务」跳转到TLS。
- 首先创建日志项目。
- 点击创建好的日志项目,进一步创建日志主题,所有的日志数据都会被同步到日志主题里。
- 点击检索分析,选择配置的主题,然后进行索引配置,需要启用索引,比如开启全文索引。
- 提供账号和日志主题ID给PCC管理员进行日志同步配置。配置完成后,用户即可在检索分析界面查看日志数据。
- 告警配置
(1).创建通知组,在日志服务的通知组栏目点击进行创建。
(2).填写告警的通知对象,支持用户/用户组,webhook支持飞书、钉钉、企业微信等通知渠道。
(3).在日志项目的告警策略栏目可以创建告警策略。