有时候我们的产品会遭遇网络爬虫,在进行数据分析的时候,这些爬虫带来的数据没有分析价值,且影响真实数据,火山引擎增长分析上线「爬虫数据过滤」功能是为帮助客户更好的应对网络爬虫数据,发现并处理带有爬虫特征的数据,支持将这部分数据进行标记或过滤。本文为您介绍爬虫识别相关规则与配置要点。
功能介绍
DataFinder支持您在项目通用设置中手动配置自定义爬虫特征规则,自定义爬虫特征规则会在数据流模块处理上报数据时进行识别,您也可进一步对识别的爬虫数据设置是否需要拦截入库。
操作入口
登录并进入DataFinder控制台后,单击顶部导航栏的项目中心>项目管理>通用设置,在通用设置页面可以进行配置爬虫规则配置,界面如下:
- 您可单击配置爬虫规则链接,在弹出的页面中配置自定义爬虫规则。
- 您也可根据需要,选择是否打开 对于Web端数据配置爬虫的识别规则以及识别后的处理方式 开关。
配置爬虫识别规则
配置自定义爬虫特征规则
- 在弹出的页面中添加自定义爬虫特征。
- 自定义规则需使用正则表达式,基于 UserAgent,每行一个特征;最多支持1000行。
- 自定义规则仅影响T + 1的数据。
- 配置爬虫过滤方式。可以选择“标记为爬虫”或“过滤不入库”。
- 标记为爬虫:识别为爬虫的事件会正常入库,事件事项 $is_spider 的取值会标记为 true 。
- 过滤不入库:识别为爬虫的事件会被拦截,不会落库。
配置Web端数据爬虫规则生效开关
配置规则是否需要对web端生效。
- 打开:爬虫规则应用到web端,其他端不生效。
- 关闭:爬虫规则所有端不生效。