代理ip软件

您的位置: 首页 > 新闻资讯 > 正文

如何使用代理IP爬取到网站的指定数据

发布时间:2019-04-28 15:45:03 来源:挂机精灵

  如何使用代理IP爬取到网站的指定数据?这个代码是根据上一个爬取代理IP代码写出来的,当我们已经从那个国内高匿代理IP网站中爬取到存活时间比较久的IP地址后(此IP地址已经存到了IP.txt中),我们就可以利用爬取到的IP来作为代理IP,进一步爬取这个网站上我们所需要的IP。

如何使用代理IP爬取到网站的指定数据

  代码如下:

from bs4 import BeautifulSoup
import re
import time
import requests
import random
from fake_useragent import UserAgent

def get_ip_list():
	f = open('IP.txt','r')
	ip_list = f.readlines()
	# print(ip_list)
	f.close()
	return ip_list

def get_random_ip(ip_list):
	proxy_ip = random.choice(ip_list)
	proxy_ip = proxy_ip.strip('\n')
	proxies = {'https': proxy_ip}
	return proxies

def get_content(url, ip_list):
	print("get_content函数执行!")
	try:
		try:
			time.sleep(1)
			proxies = get_random_ip(ip_list)
			headers = {'User-Agent':str(UserAgent().random)}
			print(proxies)

			req = requests.get(url=url, proxies=proxies,headers=headers,timeout=20)#, proxies=proxies,headers=headers,timeout=20
			print("requests请求成功")
		except:
			print("重新运行")
			time.sleep(10)
			proxies = get_random_ip(ip_list)
			headers = {'User-Agent':str(UserAgent().random)}
			req = requests.get(url=url, proxies=proxies,headers=headers,timeout=40)
	except:
		print("第二次重新运行")
		time.sleep(15)
		proxies = get_random_ip(ip_list)
		headers = {'User-Agent':str(UserAgent().random)}
		req = requests.get(url=url, proxies=proxies,headers=headers)
	req.encoding = 'utf-8'
	soup = BeautifulSoup(req.text, 'lxml')


	ips = soup.find_all('tr')
	ip_final_list = []
	for i in range(1, len(ips)):
		ip_info = ips[i]
		tds = ip_info.find_all('td')
		if not tds[7].find('div',class_='bar_inner fast') == None:
			#out = re.findall('<td>(.*?)</td>', str(tds[8]))
			if tds[8].text.find('天') != -1:
				tb = tds[8].text
				tb = tb[:-1]
				if int(tb) > 10:
					ip_final_list.append(tds[1].text + ':' + tds[2].text)
				#print(out)
	return ip_final_list			
if __name__ == '__main__':
	
	for i in range(1,2):
		url = 'http://www.xicidaili.com/wt/{}'.format(i)
		ip_list = get_ip_list()
		
		for ip in get_content(url, ip_list):
			
			f2 = open('NewFile.txt','a+')

			f2.write('http://'+ip)
			f2.write('\n')
			f2.close()

  其实大部分代码与爬取代理IP差不多,不同点在于,此代码我使用了代理IP来爬取以及我爬取到的IP要为存活时间大于10天并且连接时间的那一条要为绿色。

相关资讯

手机电脑怎么使用全国动态IP的方法

  有些需要更换IP的用户,不知道手机电脑怎么使用全国动态IP,其实方法非常简单,下载个挂机精灵代理IP软件即可,比手动拨号更换IP地址方便

来源:互联网

2019-02-18 17:42:49

如何才能更好的挂机手游?使用挂机精灵

手游给人带来很乐趣,令人烦恼的是,手游漫长的练级的过程,解决这个烦恼的方法就是手游挂机,让其自动升级打怪。那么,如何才能玩手游呢?使用挂机精灵即可。如何才能更好

来源:互联网

2019-02-28 14:22:13

如何谨慎使用HTTP代理IP ?

在互联网应用逐渐广泛的今天,http代理IP给我们的工作生活带来了很大的方便,所以,http代理IP的产品代理商也是逐渐增加,很多用户陷入了选择困难症中,不知道

来源:互联网

2019-03-18 15:55:16

游戏奇迹使用代理IP挂机时一定要找一个最佳地方

挂机升级或者挂机打宝,这是我们在奇迹sf中最值得注意的,并且来说也必须是要找到一个最为合适的地方了之后,这样能够对我们产生出来的效果,也才能保证绝对是更加到位的

来源:互联网

2019-03-26 15:51:29

如何使用挂机精灵换IP投票增加人气流量

许多朋友需要用到提高流量或点击率,比如:提高自己博客访问量,增加投票人气、小说访问量,视频点击率,论坛帖子点击率等。这样就可以提高自己的排名或在网页热门信息中展

来源:互联网

2019-04-03 16:05:30

如何使用代理ip软件来维护你的隐私安全?

早前,代理ip并没有被人们时长接触到,更早之前,甚至有人还不知道什么ip,更别说代理ip了。但是随着时代的发展,以及互联网的不断进步,越来越多的人也就开始意识到

来源:互联网

2019-04-13 15:00:01

如何使用IP代理软件防封锁

账号被封锁了怎么办?可以使用IP代理软件防封锁,下面就来教一教大家如何使用IP代理软件防封锁。越来越多的现代人已经学会使用网络,上至大爷大妈,下至几岁的孩童,网

来源:互联网

2019-04-15 16:06:22

爬虫如何爬取大众点评团购信息的

今天我们就来看下,爬虫是如何爬取大众点评团购信息的。在抓取之前,我们首先打开大众点评团购页面,输入关键词进行搜索,在想要爬取的页面右键查看网页源代码,查找我们需

来源:互联网

2019-04-02 16:54:59

使用代理IP后可以实现指定host吗

使用代理IP后可以实现指定host吗?当我们在浏览器输入一个域名访问网站时,本机设置的DNS服务器会先将域名解析,若本机网络中没有设置DNS,则是由路由器的DN

来源:挂机精灵

2019-04-24 15:05:50

如何使用代理IP爬取到网站的指定数据

如何使用代理IP爬取到网站的指定数据?这个代码是根据上一个爬取代理IP代码写出来的,当我们已经从那个国内高匿代理IP网站中爬取到存活时间比较久的IP地址后(此I

来源:挂机精灵

2019-04-28 15:45:03

为了营销批量注册账号,IP更换是如何操作的?

很多用户在做问答营销时都遇到过这些情况,比如在一些网站上面批量注册帐号、发布留言评论,或在使用一些即时通讯软件频繁发送消息等等这些行为都会遇到系统的IP限制,限

来源:互联网

2019-02-26 17:38:59

在线客服
大客户VIP渠道2
点击这里给我发消息
讨论QQ群
挂机精灵动态换IP
客服电话
400-998-9776转2