有时候我们的产品会遭遇网络爬虫,在进行数据分析的时候,这些爬虫带来的数据没有分析价值,且影响真实数据,火山引擎增长分析上线「爬虫数据过滤」功能是为帮助客户更好的应对网络爬虫数据,发现并处理带有爬虫特征的数据,支持将这部分数据进行标记或过滤。
第一步:通过「应用设置」模块进入「通用设置」后可以进行配置爬虫规则,界面如下:
第二步:开启配置爬虫识别
第三步:点击“配置爬虫规则”开始配置爬虫规则
开关未开启时也可以配置,只是识别功能不生效。
开关开启 | 开关关闭 | |
---|---|---|
配置规则 | 生效配置规则 | 不生效 |
未配置规则 | 生效全局规则 | 不生效 |
爬虫特征:
爬虫特征系统全局预置规则:
msnbot|Sosospider|Sosoimagespider|Sogou web spider|Googlebot|Baiduspider|" + "360Spider|YoudaoBot|YandexBot|EasouSpider|Mediapartners-Google|APIs-Google|AdsBot-Google|" +"JikeSpider|MJ12bot|ia_archiver|Rogerbot|exabot| DOCOMO Sprider|"+ "python-requests|HttpClient|Go-http-client|Python-urllib|gohttp|curl/|Surf/|Scrapy
爬虫过滤方式: