代理ip软件

您的位置: 首页 > 新闻资讯 > 正文

爬虫如何爬取大众点评团购信息的

发布时间:2019-04-02 16:54:59 来源:互联网

今天我们就来看下,爬虫是如何爬取大众点评团购信息的。在抓取之前,我们首先打开大众点评团购页面,输入关键词进行搜索,在想要爬取的页面右键查看网页源代码,查找我们需要的标签信息。

爬虫如何爬取大众点评团购信息的


代码如下:


def getDealInfo(list,url,refer):


    path="D://deal_info.txt"


    headers=["团购id","团购名称","原价","团购价","销量","单项名称","单项数量","单项单价"]


    for id in list[:3]:  #数据太多,这里选前三条做demo


        try:


            info=[]


            deal_url=url+id


            html=getHtmlText(deal_url,refer)


            soup=BeautifulSoup(html,"html.parser")


 


            #爬取团购名称,原价,团购价,销量等信息


            main_info=soup.find("div",attrs={"class":"setmeal-box J_setmeal-box"})


            name=main_info.find("li")


            data=eval(name.attrs["data-eval-config"])#将字符串转换成字典格式


            info.append(id)#团购id


            info.append(data["title"])#团购名称


            info.append(data["marketPrice"])#原价


            info.append(data["price"])#团购价


            info.append(data["sold"])#销量


 


            #爬取团购里包含的各个项目的名称、单价等信息


            detail_info=soup.find("table",attrs={"class":"detail-table"})


            head=detail_info.find("thead")


            head_list=head.find_all("th")


            value=detail_info.find("tbody")


            value_list=value.find_all("td")


            item_num = int(len(value_list) / 3 - 1)  # 三个为一组减去最后一组价格组    num表示团购项目中单项的数量


            for i in range(item_num):


                for j in range(len(head_list)):


                    info.append(re.sub(r'[\r\n" "]', "", value_list[3 * i + j].text))  # 用正则表达式去除多余的\r\n和空格


            saveInfo(info,path,headers)


 


        except:


            # 显示错误信息


            traceback.print_exc()


            Continue


通过以上代码,我们就可以获得大众点评的相关团购信息了,比如:团购名称、价格、销量等。需要注意的是,在抓取数据的时候,我们要注意一下,被抓取的网站有没有对爬虫进行限制。如果有限制可以加一个请求头完全模拟浏览器的请求,也可以使用挂机精灵代理IP软件,换新的ip就能继续爬取数据了。


相关资讯

如何高效获取大数据?ip代理:用爬虫!

在不同的操作系统中,Python存在细微的差别,因此有几点您需要牢记在心。这里小编使用的是Python3版本。Python自带一个在终端窗口中运行的解释器,让您

来源:互联网

2019-03-22 16:27:55

代理IP对爬虫的重要性以及IP池的优质特性

大数据时代,网络数据非常多,我们即使要做个小小的数据分析,也是需要抓取非常多的网页数据来分析结果,这单靠人工获取数据是不现实的,因此大家都是使用各种采集器或者直

来源:互联网

2019-03-25 17:21:57

如何解决python爬虫的IP资源问题

大家都说现在是大数据时代,是python爬虫的天下,但python爬虫也是有天敌的,随着网络爬虫的日渐壮大,反爬虫也在不断进化,若想顺应时代发展,更好的突破网站

来源:互联网

2019-04-01 16:00:58

爬虫如何爬取大众点评团购信息的

今天我们就来看下,爬虫是如何爬取大众点评团购信息的。在抓取之前,我们首先打开大众点评团购页面,输入关键词进行搜索,在想要爬取的页面右键查看网页源代码,查找我们需

来源:互联网

2019-04-02 16:54:59

Python爬虫代理IP池

在公司做分布式深网爬虫,搭建了一套稳定的代理池服务,为上千个爬虫提供有效的代理,保证各个爬虫拿到的都是对应网站有效的代理IP,从而保证爬虫快速稳定的运行,当然在

来源:互联网

2019-04-08 15:11:19

挂机精灵:只要有互联网,就会有爬虫

随之互联网的快速化发展,因特网变成大批量信息的传递,怎样有效性地获取并运用这种信息内容变成1个极大的挑戰。刚开始,互联网技术都还没检索。在百度搜索引擎被开发设计

来源:互联网

2019-04-15 15:42:23

爬虫ip代理池搭建前需解决的问题及搭建思路

在公司做分布式深网爬虫,搭建了一套稳定的代理池服务,为上千个爬虫提供有效的代理,保证各个爬虫拿到的都是对应网站有效的代理IP,从而保证爬虫快速稳定的运行,当然在

来源:互联网

2019-04-15 16:10:47

代理ip地址隐藏自己的IP 保护隐私!

  代理ip地址隐藏自己的IP保护隐私!人们隐藏他们的IP地址的一个主要原因是,他们想在不被追踪的情况下浏览网页信息、下载一些资料等等,当然

来源:互联网

2019-02-15 16:29:03

为了营销批量注册账号,IP更换是如何操作的?

很多用户在做问答营销时都遇到过这些情况,比如在一些网站上面批量注册帐号、发布留言评论,或在使用一些即时通讯软件频繁发送消息等等这些行为都会遇到系统的IP限制,限

来源:互联网

2019-02-26 17:38:59

换ip刷单需要注意哪些问题?

目前购买挂机精灵软件的朋友使用的用途非常广泛,比较常见的有,隐藏IP,营销群发,玩游戏加速等,除了这些功能还有一项非常重要的工作,那就是换IP刷单了,刷单的项目

来源:挂机精灵

2019-07-28 14:58:00

在线客服
大客户VIP渠道2
点击这里给我发消息
讨论QQ群
挂机精灵动态换IP
客服电话
400-998-9776转2