代理ip软件

您的位置: 首页 > 新闻资讯 > 正文

如何有效突破防采集策略

发布时间:2020-01-21 15:37:00 来源:挂机精灵

  如何有效突破防采集策略?目前常见的Web反采集策略大概有以下几种:

  1)数据加密;

  2)限制访问频率;

  3)数据以非文本形式展现;

  4)验证码保护;

  5)Cookie验证;

如何有效突破防采集策略

  本文主要探讨一下如何突破”限制访问频率”:

  “限制访问频率”的原理:

  服务器端程序(例如,WAF)维护了一个客户端(IP)的访问计数,如果客户端(IP)请求频率超过阈值,请求就会被拦截,通常会出现下列情形:

  1)最常见的:返回403或503错误。

  2)连接被重置。

  3)最令人头疼的:返回无效的内容

  突破方法:

  1)使用HTTP代理。因为服务端是根据IP进行限制的,通过使用代理就可以将下载量平均到多个IP上。需要注意的是透明代理往往是无效的,因为WAF能够检测到真实的源IP,所以要使用隐秘(secret)代理。

  2)增加请求延迟。比如,WAF限制单IP请求频率不能超过20次/分钟,我们可以在两次请求之间增加5S的延迟,这样下载频率就是12次/分钟,就不会被拦截了。

  通常我们会将1)和2)的方法结合,这样即能防止被拦截,又能加快采集速度。例如,使用10个代理,每次下载增加5S延迟,一分钟的实际下载量就是:120次。

  3)利用搜索引擎缓存(Google,Bing,百度)。“曲线救国”策略,绕过目标服务器,从搜索引擎的缓存进行采集。而且缓存里的页面的结构和原页面是一样的,不用重写提取规则。

  4)谷歌翻译。让谷歌作为我们的“代理”,将源语言和目标语言都设置成一样,这样从谷歌翻译结果获取的数据和原页面就是一样的(注意,HTML结构有很大变化,需要重写提取规则)。

  5)对于返回无效内容的情况,一定要找到检测内容是否有效的方法,否则很难保证所有数据都是正确的。


相关资讯

使用HTTP代理IP爬虫采集有哪些认知误区

大部分人都知道,在使用爬虫多次爬取同一网站时,经常会被网站的IP反爬虫机制给禁掉,为了解决封禁IP的问题通常会使用代理IP。但也有一部分人在HTTP代理IP的使

来源:挂机精灵

2019-05-08 15:16:04

数据采集为什么要用IP代理

互联网的迅速发展带动了大数据的应用,数据采集成为了一个热门的行业,大数据样本的获得需要通过数据爬虫来时限,爬虫工作者一般都会解用爬虫代理IP这个工具,这是因为再

来源:挂机精灵

2019-05-08 15:25:27

关于使用HTTP代理IP爬虫采集的认知误区

大部分人都知道,在使用爬虫多次爬取同一网站时,经常会被网站的IP反爬虫机制给禁掉,为了解决封禁IP的问题通常会使用代理IP。但也有一部分人在HTTP代理IP的使

来源:挂机精灵

2019-05-10 15:30:12

数据采集IP限制怎么办?用代理ip

很多网络工作人员都知道,数据采集的时候,很容易遇到IP限制的问题。那么,数据采集IP限制该怎么办呢?代理IP来帮您解决问题。数据采集如果IP受到了限制,不妨试试

来源:挂机精灵

2019-05-22 15:53:28

爬虫采集HTTP代理原理解析

在整个互联网的Web结构中,HTTP代理服务器是一个出现频率极高的组件(其他还有浏览器、缓存服务器、Web服务器、DNS解析服务器等),理解HTTP代理服务器的

来源:挂机精灵

2019-06-09 14:59:00

采集数据用代理IP有什么用

大家都知道采集数据要用爬虫,爬虫要比人工的效率快很多。当在采集数据的时候,代理IP有非常大的作用,下面就为大家进行详细的介绍。采集数据使用代理IP可以突破IP的

来源:挂机精灵

2019-06-16 15:02:00

HTTP代理IP爬虫采集为何还会被封

当使用爬虫爬取数据的时候,很容易被网站的反爬虫机制给禁用IP,为了避免这种情况,大多都选择了HTTP代理IP来帮助完成这项工作。但是很多用户使用了HTTP代理I

来源:挂机精灵

2019-06-17 15:02:30

为了营销批量注册账号,IP更换是如何操作的?

很多用户在做问答营销时都遇到过这些情况,比如在一些网站上面批量注册帐号、发布留言评论,或在使用一些即时通讯软件频繁发送消息等等这些行为都会遇到系统的IP限制,限

来源:互联网

2019-02-26 17:38:59

七种适用于大部分游戏的防封策略

  智能手机的流行,各种游戏也跟着火爆起来,也有许多人通过游戏来赚钱,但是要注意一个问题,那就是游戏封号。辛辛苦苦练了个号,才开始赚点小钱,

来源:互联网

2019-02-20 15:46:48

如何突破单IP频繁反爬虫限制

大数据时代,海量数据的获取离不开爬虫技术。再加上代理IP(比如挂机精灵)的帮助,爬虫技术的应用也就越来越广泛。我们都知道,单IP频繁爬取某网站,很容易被网站的反

来源:挂机精灵

2019-04-24 15:01:06

如何有效使用HTTP代理IP?

在互联网应用逐渐广泛的今天,http代理IP给我们的工作生活带来了很大的方便,所以,http代理IP的产品代理商也是逐渐增加,很多用户陷入了选择困难症中,不知道

来源:互联网

2019-04-16 16:10:19