You need to enable JavaScript to run this app.
导航
通用设置-爬虫数据过滤
最近更新时间:2024.12.04 14:54:29首次发布时间:2024.04.30 15:17:21

有时候我们的产品会遭遇网络爬虫,在进行数据分析的时候,这些爬虫带来的数据没有分析价值,且影响真实数据,火山引擎增长分析上线「爬虫数据过滤」功能是为帮助客户更好的应对网络爬虫数据,发现并处理带有爬虫特征的数据,支持将这部分数据进行标记或过滤。本文为您介绍爬虫识别相关规则与配置要点。

功能介绍

预置爬虫特征系统规则

  • DataFinder系统数据流功能模块为您预置了的爬虫特征识别规则,已包含常见的爬虫场景,当网络请求的useAgent含有以下特征时,系统会自动识别为爬虫事件。

    "msnbot|Sosospider|Sosoimagespider|Sogou web spider|Googlebot|Baiduspider"  
    
    "360Spider|YoudaoBot|YandexBot|EasouSpider|Mediapartners-Google|APIs-Google|AdsBot-Google" 
    
    "JikeSpider|MJ12bot|ia_archiver|Rogerbot|exabot| DOCOMO Sprider" 
    
    "python-requests|HttpClient|Go-http-client|Python-urllib|gohttp|curl/|Surf/|Scrapy"
    
  • 当被识别为爬虫事件后,在数据落库时,DataFinder会将对应事件的爬虫识别属性$is_spider 的取值标记为 true。

自定义爬虫特征规则

DataFinder也支持您在项目通用设置中手动配置自定义爬虫特征规则,自定义爬虫特征规则会在数据流模块处理上报数据时进行识别,您也可进一步对识别的爬虫数据设置是否需要拦截入库。
设置自定义规则后,在数据流阶段,当前项目会使用自定义规则来识别拦截相关的数据,即自定义规则会覆盖掉预置的系统规则。

操作入口

登录并进入DataFinder控制台后,单击顶部导航栏的应用管理>应用设置>通用设置,在通用设置页面可以进行配置爬虫规则配置,界面如下:
Image

  • 您可单击配置爬虫规则链接,在弹出的页面中配置自定义爬虫规则。
  • 您也可根据需要,选择是否打开 对于Web端数据配置爬虫的识别规则以及识别后的处理方式 开关。

配置爬虫识别规则

(可选)配置自定义爬虫特征规则

DataFinder系统为您预置了爬虫特征规则,如果您不希望使用系统预置的规则,希望使用自定义的规则进行爬虫识别拦截,可单击页面的配置爬虫规则链接,在弹出的页面配置定义爬虫特征规则。

  1. 在弹出的页面中添加自定义爬虫特征。

    注意

    自定义爬虫特征默认为空,表示使用预置的规则;如果您添加了自定义规则,则自定义规则会覆盖掉系统的预置规则。

    Image
    • 自定义规则需使用正则表达式,基于 UserAgent,每行一个特征;最多支持1000行。
    • 自定义规则仅影响T + 1的数据。
  2. 配置爬虫过滤方式。可以选择“标记为爬虫”或“过滤不入库”。
    • 标记为爬虫:识别为爬虫的事件会正常入库,事件事项 $is_spider 的取值会标记为 true 。
    • 过滤不入库:识别为爬虫的事件会被拦截,不会落库。

配置Web端数据爬虫规则生效开关

配置规则是否需要对web端生效。

  • 打开:爬虫规则应用到web端,其他端不生效。
  • 关闭:爬虫规则所有端不生效。

如果您添加了自定义规则,则打开开关后,自定义规则会覆盖预置非全局规则,爬虫规则生效逻辑如下。

规则类型

开关开启

开关关闭

自定义规则

生效

不生效

预置-规则

不生效,被自定义规则覆盖

不生效