有时候我们的产品会遭遇网络爬虫,在进行数据分析的时候,这些爬虫带来的数据没有分析价值,且影响真实数据,火山引擎增长分析上线「爬虫数据过滤」功能是为帮助客户更好的应对网络爬虫数据,发现并处理带有爬虫特征的数据,支持将这部分数据进行标记或过滤。本文为您介绍爬虫识别相关规则与配置要点。
DataFinder系统底座为您预置了全局爬虫特征识别规则,已包含常见的爬虫场景,当网络请求的useAgent含有以下特征时,系统会自动拦截,此场景下的请求会返回500错误,提示您UserAgent is not allowed
。
"msnbot|Sosospider|Sosoimagespider|Sogou web spider|Googlebot|Baiduspider" "360Spider|YoudaoBot|YandexBot|EasouSpider|Mediapartners-Google|APIs-Google|AdsBot-Google" "JikeSpider|MJ12bot|ia_archiver|Rogerbot|exabot| DOCOMO Sprider" "python-requests|HttpClient|Go-http-client|Python-urllib|gohttp|curl/|Surf/|Scrapy"
DataFinder系统数据流功能模块也为您预置了非全局的爬虫特征识别规则,范围与预置-全局规则一致。
DataFinder也支持您在项目通用设置中手动配置自定义爬虫特征规则,自定义爬虫特征规则会在数据流模块处理上报数据时进行识别,您也可进一步对识别的爬虫数据设置是否需要拦截入库。
设置自定义规则后,在数据流阶段,当前项目会使用自定义规则来识别拦截相关的访问,即自定义规则会覆盖掉预置的非全局的系统规则,最终识别和拦截结果为自定义规则与全局的系统规则并集。
登录并进入DataFinder控制台后,单击顶部导航栏的项目中心>项目管理>通用设置,在通用设置页面可以进行配置爬虫规则配置,界面如下:
DataFinder系统为您预置了全局的爬虫特征规则,如果您不希望使用系统预置的规则,希望使用自定义的规则进行爬虫识别拦截,可单击页面的配置爬虫规则链接,在弹出的页面配置定义爬虫特征规则。
注意
自定义爬虫特征默认为空,表示使用预置的规则;如果您添加了自定义规则,则自定义规则会覆盖掉系统的预置-非全局规则,最终生效的规则是自定义规则与预置-全局规则的并集。
配置规则是否需要对web端生效。
如果您添加了自定义规则,则打开开关后,自定义规则会覆盖预置非全局规则,爬虫规则生效逻辑如下。
规则类型 | 开关开启 | 开关关闭 |
---|---|---|
自定义规则 | 生效 | 不生效 |
预置-全局规则 | 生效 | 不生效 |
预置-非全局规则 | 不生效,被自定义规则覆盖 | 不生效 |