代理ip软件

您的位置: 首页 > 新闻资讯 > 正文

HTTP代理如何爬取数据

发布时间:2019-06-29 14:32:33 来源:挂机精灵

  HTTP代理如何爬取数据?http代理存在2种形式,下面先为大家简单的介绍一下。

  第一种为普通代理。这种http代理扮演得是一个中介得角色,对于链接到他的客户端来说,他就是服务器,而对于服务端来说他就是客户端。他的任务就是负责两个端口之间传送http报文。

  第二种为隧道代理。他通过http协议得正文部分(Body)完成通讯,以http的方式实现任意基于TCP的应用层协议代理。这种代理使用http的connect方法建立链接。

  普通代理

  第一种web代理原理是:

  HTTP 客户端向代理发送请求报文,代理服务器需要正确地处理请求和连接(例如正确处理 Connection: keep-alive),同时向服务器发送请求,并将收到的响应转发给客户端。

  下面这张图片来自于《HTTP 权威指南》,直观地展示了上述行为:

HTTP代理如何爬取数据

  假设客户通过代理网站访问A网站,对于A来讲他会把代理当作客户端,真正的网民使用的真实地址,他是察觉不到的,完全实现隐藏,而客户端IP的目的。也可以修改http头部,通过X-Forwarded-IP 这样的自定义头部告知服务端真正的客户端IP。但服务器无法验证这个自定义头部真的是由代理添加,还是客户端修改了请求头,所以从 HTTP 头部字段获取 IP 时,需要格外小心。

  给浏览器显式的指定代理,需要手动修改浏览器或操作系统相关设置,或者指定 PAC(Proxy Auto-Configuration,自动配置代理)文件自动设置,还有些浏览器支持 WPAD(Web Proxy Autodiscovery Protocol,Web 代理自动发现协议)。显式指定浏览器代理这种方式一般称之为正向代理,浏览器启用正向代理后,会对 HTTP 请求报文做一些修改,来规避老旧代理服务器的一些问题。还有一种情况是访问 A 网站时,实际上访问的是代理,代理收到请求报文后,再向真正提供服务的服务器发起请求,并将响应转发给浏览器。这种情况一般被称之为反向代理,它可以用来隐藏服务器 IP 及端口。一般使用反向代理后,需要通过修改 DNS 让域名解析到代理服务器 IP,这时浏览器无法察觉到真正服务器的存在,当然也就不需要修改配置了。反向代理是 Web 系统最为常见的一种部署方式,例如本博客就是使用 Nginx 的 proxy_pass 功能将浏览器请求转发到背后的 Node.js 服务。

HTTP代理如何爬取数据

  隧道代理

  第二种 Web 代理的原理也很简单:

  HTTP 客户端通过 CONNECT 方法请求隧道代理创建一条到达任意目的服务器和端口的 TCP 连接,并对客户端和服务器之间的后继数据进行盲转发。

  下面这张图片同样来自于《HTTP 权威指南》,直观地展示了上述行为:

HTTP代理如何爬取数据

  假如我通过代理访问 A 网站,浏览器首先通过 CONNECT 请求,让代理创建一条到 A 网站的 TCP 连接;一旦 TCP 连接建好,代理无脑转发后续流量即可。所以这种代理,理论上适用于任意基于 TCP 的应用层协议,HTTPS 网站使用的 TLS 协议当然也可以。这也是这种代理为什么被称为隧道的原因。


相关资讯

爬虫如何爬取大众点评团购信息的

今天我们就来看下,爬虫是如何爬取大众点评团购信息的。在抓取之前,我们首先打开大众点评团购页面,输入关键词进行搜索,在想要爬取的页面右键查看网页源代码,查找我们需

来源:互联网

2019-04-02 16:54:59

http代理是怎样爬取数据的

http代理是怎样爬取数据的?http代理存在2种形式,下面为大家简单的介绍一下。第一种为普通代理。这种http代理扮演得是一个中介得角色,对于链接到他的客户端

来源:互联网

2019-04-16 16:18:27

如何利用代理IP爬取京东网站手机数据

在爬虫过程中如果经常用自己的IP进行爬虫会出现IP被封的可能,这就要用到代理技术,通过爬取代理网站的IP地址,每次爬取页面就随机选择一个IP地址进行爬取,这样就

来源:挂机精灵

2019-04-28 15:18:07

http代理是如何爬取数据的

http代理是如何爬取数据的?http代理存在2种形式,下面为大家简单的介绍一下。第一种为普通代理。这种http代理扮演得是一个中介得角色,对于链接到他的客户端

来源:挂机精灵

2019-04-28 15:39:25

如何使用代理IP爬取到网站的指定数据

如何使用代理IP爬取到网站的指定数据?这个代码是根据上一个爬取代理IP代码写出来的,当我们已经从那个国内高匿代理IP网站中爬取到存活时间比较久的IP地址后(此I

来源:挂机精灵

2019-04-28 15:45:03

使用动态IP代理爬取网站的都是哪些爬虫

使用动态IP代理爬取网站的都是哪些爬虫?在写爬虫程序的时候,当抓取频率较快或者抓取一些robots.txt禁爬路径,肯定会碰到被网站屏蔽的情况,这时候目标服务器

来源:挂机精灵

2019-05-14 15:33:00

HTTP代理如何爬取数据

HTTP代理如何爬取数据?http代理存在2种形式,下面先为大家简单的介绍一下。第一种为普通代理。这种http代理扮演得是一个中介得角色,对于链接到他的客户端来

来源:挂机精灵

2019-06-29 14:32:33

挂机精灵代理ip软件解决ip被封

   挂机精灵代理ip软件解决ip被封,现在市面上挂机软件如此之多,该怎么判断这个挂机软件是好用还是不好用呢?我们该如何选择一款适

来源:互联网

2019-02-11 15:16:07

如何谨慎使用HTTP代理IP ?

在互联网应用逐渐广泛的今天,http代理IP给我们的工作生活带来了很大的方便,所以,http代理IP的产品代理商也是逐渐增加,很多用户陷入了选择困难症中,不知道

来源:互联网

2019-03-18 15:55:16

如何高效获取大数据?ip代理:用爬虫!

在不同的操作系统中,Python存在细微的差别,因此有几点您需要牢记在心。这里小编使用的是Python3版本。Python自带一个在终端窗口中运行的解释器,让您

来源:互联网

2019-03-22 16:27:55

为了营销批量注册账号,IP更换是如何操作的?

很多用户在做问答营销时都遇到过这些情况,比如在一些网站上面批量注册帐号、发布留言评论,或在使用一些即时通讯软件频繁发送消息等等这些行为都会遇到系统的IP限制,限

来源:互联网

2019-02-26 17:38:59

在线客服
大客户VIP渠道2
点击这里给我发消息
讨论QQ群
挂机精灵动态换IP
客服电话
400-998-9776转2