代理ip软件

您的位置: 首页 > 新闻资讯 > 正文

使用代理IP后爬虫遇到403怎么办

发布时间:2019-04-18 16:31:56 来源:挂机精灵

  大数据时代来临,数据采集推动着数据分析,数据分析推动发展,由此网络爬虫风靡一时。但在网络爬虫运行的过程中会遇到很多问题,如爬取速度、IP被封、爬取受限等等,举个简单的荔枝,当爬取数据爬的正起劲时,突然蹦出403 Forbidden,可谓十分闹心。那么,使用代理IP后爬虫遇到403怎么办呢?

使用代理IP后爬虫遇到403怎么办

  出现问题不可避免,但我们也不要心慌不要急,关键是要找出原因,然后解决问题,比如403 Forbidden,这个错误的原因就有好几种。

  一、直接原因

  1、你的IP被列入黑名单。

  2、你在一定时间内过多地访问此网站(一般是用采集程序),被防火墙拒绝访问了。

  3、网站域名解析到了空间,但空间未绑定此域名。

  4、你的网页脚本文件在当前目录下没有执行权限。

  5、在不允许写/创建文件的目录中执行了创建/写文件操作。

  6、以http方式访问需要ssl连接的网址。

  7、浏览器不支持SSL 128时访问SSL 128的连接。

  8、在身份验证的过程中输入了错误的密码。

  9、DNS解析错误,手动更改DNS服务器地址。

  10、连接的用户过多,可以过后再试。

  11、服务器繁忙,同一IP地址发送请求过多,遭到服务器智能屏蔽。

  二、逻辑原因

  403 Forbidden是HTTP协议中的一个状态码(Status Code)。可以简单的理解为没有权限访问此站。该状态表示服务器理解了本次请求但是拒绝执行该任务,该请求不该重发给服务器。在HTTP请求的方法不是“HEAD”,并且服务器想让客户端知道为什么没有权限的情况下,服务器应该在返回的信息中描述拒绝的理由。在服务器不想提供任何反馈信息的情况下,服务器可以用404 Not Found代替403 Forbidden。

  找出了403 forbidden是由什么原因造成的,那么解决403 forbidden错误的方法就可以对症下药了。

  1、重建dns缓存

  对于一些常规的403 forbidden错误,马海祥建议大家首先要尝试的就是重建dns缓存,在运行中输入cmd,然后输入ipconfig /flushdns即可。如果不行的话,就需要在hosts文件里把主页解析一下了。

  同时,查看是否在网站虚拟目录中添加默认文档,一般默认文档为:index.html;index.asp;index.php;index.jsp;default.htm;default.asp等

  错误的原因和解决方法

  403 Forbidden

  2、修改文件夹安全属性

  用以下命令修改文件夹安全属性

  chcon -R -t httpd_user_content_t public_html/

  所用命令解析:

  ls -Z -d public_html/

  #显示文件/目录的安全语境——Z, –context

  Display security context so it fits on most displays. Displays only mode, user, group, security context and file name.-d, –directory

  list directory entries instead of contents, and do not dereference symbolic links

  chcon -R -t httpd_user_content_t public_html/

  #修改文件/目录的安全语境-R, –recursive

  change files and directories recursively-t, –type

  set type TYPE in the target security context

  3、关于apache导致的403 forbidden错误的解决办法

  打开apache的配置文件httpd.conf,找到这段代码:

  Options FollowSymLinks

  AllowOverride None

  Order deny,allow

  Deny from all

  有时候由于配置了php后,这里的“Deny from all”已经拒绝了一切连接。把该行改成“allow from all”,修改后的代码如下,问题解决。

  Options FollowSymLinks

  AllowOverride None

  Order deny,allow

  Allow from all

  之所以会出现错误,是因为大多数的国外主机在配置Apache的时候启用了mod_security,也就是开启了安全检查,如果提交的信息中包含select , % , bin等关键字,Apache就会禁止,并给出403,404,500等错误。

  4、使用优质的代理IP也是能够有效的避免遭遇403 Forbidden的重要手段,挂机精灵平台可以提供海量的IP资源,高效稳定,有效率高,性价比高,值得拥有。


相关资讯

如何高效获取大数据?ip代理:用爬虫!

在不同的操作系统中,Python存在细微的差别,因此有几点您需要牢记在心。这里小编使用的是Python3版本。Python自带一个在终端窗口中运行的解释器,让您

来源:互联网

2019-03-22 16:27:55

代理IP对爬虫的重要性以及IP池的优质特性

大数据时代,网络数据非常多,我们即使要做个小小的数据分析,也是需要抓取非常多的网页数据来分析结果,这单靠人工获取数据是不现实的,因此大家都是使用各种采集器或者直

来源:互联网

2019-03-25 17:21:57

如何解决python爬虫的IP资源问题

大家都说现在是大数据时代,是python爬虫的天下,但python爬虫也是有天敌的,随着网络爬虫的日渐壮大,反爬虫也在不断进化,若想顺应时代发展,更好的突破网站

来源:互联网

2019-04-01 16:00:58

爬虫如何爬取大众点评团购信息的

今天我们就来看下,爬虫是如何爬取大众点评团购信息的。在抓取之前,我们首先打开大众点评团购页面,输入关键词进行搜索,在想要爬取的页面右键查看网页源代码,查找我们需

来源:互联网

2019-04-02 16:54:59

Python爬虫代理IP池

在公司做分布式深网爬虫,搭建了一套稳定的代理池服务,为上千个爬虫提供有效的代理,保证各个爬虫拿到的都是对应网站有效的代理IP,从而保证爬虫快速稳定的运行,当然在

来源:互联网

2019-04-08 15:11:19

挂机精灵:只要有互联网,就会有爬虫

随之互联网的快速化发展,因特网变成大批量信息的传递,怎样有效性地获取并运用这种信息内容变成1个极大的挑戰。刚开始,互联网技术都还没检索。在百度搜索引擎被开发设计

来源:互联网

2019-04-15 15:42:23

爬虫ip代理池搭建前需解决的问题及搭建思路

在公司做分布式深网爬虫,搭建了一套稳定的代理池服务,为上千个爬虫提供有效的代理,保证各个爬虫拿到的都是对应网站有效的代理IP,从而保证爬虫快速稳定的运行,当然在

来源:互联网

2019-04-15 16:10:47

挂机精灵代理ip软件解决ip被封

   挂机精灵代理ip软件解决ip被封,现在市面上挂机软件如此之多,该怎么判断这个挂机软件是好用还是不好用呢?我们该如何选择一款适

来源:互联网

2019-02-11 15:16:07

频繁更换服务器IP的后果你承担得起吗?

频繁更换服务器IP大多可以归结为两个原因,IP被封或更换服务器,前者相对更多。一般来说,一次或两次更换IP并不会有很大的影响,最多是流量部分减少或收录减少,但这

来源:互联网

2019-03-21 14:53:34

换ip软件后网络无法连接怎么办?

如今使用换ip软件的人逐渐增多,不可避免的会碰上换ip软件账号无法正常连接的情况。这就要求我们必须保证自己的账户名和密码是对的,有一部分软件网站是邮箱名,部分是

来源:互联网

2019-03-31 10:45:00

手机电脑怎么使用全国动态IP的方法

  有些需要更换IP的用户,不知道手机电脑怎么使用全国动态IP,其实方法非常简单,下载个挂机精灵代理IP软件即可,比手动拨号更换IP地址方便

来源:互联网

2019-02-18 17:42:49

在线客服
大客户VIP渠道2
点击这里给我发消息
讨论QQ群
挂机精灵动态换IP
客服电话
400-998-9776转2